Anthropic presenta Sonnet 4.6 con mejoras en programación y una ventana de contexto de un millón de tokens

La carrera por mejorar los modelos de lenguaje no se detiene. Anthropic ha presentado Sonnet 4.6, la nueva versión de su modelo intermedio dentro de la familia Claude. La actualización mantiene el calendario cuatrimestral anunciado por la compañía y llega con mejoras en programación, seguimiento de instrucciones y uso del ordenador.

Sonnet 4.6 pasará a ser el modelo predeterminado para los usuarios de los planes Free y Pro. Millones de personas interactuarán con esta versión sin necesidad de seleccionarla manualmente.

Una de las novedades más destacadas es la ventana de contexto en versión beta de hasta un millón de tokens. Es el doble de la capacidad máxima anterior en la línea Sonnet. En términos prácticos, esto permite cargar en una sola solicitud una base de código extensa o un contrato legal completo sin fragmentarlo en varias partes. Para desarrolladores o investigadores, esa diferencia es operativa.

El anuncio llega apenas dos semanas después del lanzamiento de Opus 4.6, el modelo de mayor tamaño de la compañía. Con esta cadencia, Anthropic busca cubrir todos los segmentos de su catálogo. Además, ha adelantado que actualizará el modelo Haiku en las próximas semanas, completando así la renovación de la familia Claude.

En cuanto a rendimiento, Sonnet 4.6 se presenta con resultados actualizados en distintos benchmarks. En OS World, centrado en tareas de uso del ordenador, el modelo muestra mejoras en ejecución de acciones dentro de entornos simulados. En SWE-Bench, orientado a ingeniería de software, también registra avances en resolución de incidencias de código.

Uno de los datos más llamativos es su puntuación del 60,4% en ARC-AGI-2, una prueba diseñada para evaluar capacidades asociadas al razonamiento general. Ese resultado lo sitúa por encima de la mayoría de modelos comparables en esa métrica. Sin embargo, todavía queda por detrás de sistemas como Opus 4.6, Google con Gemini 3 Deep Think y versiones refinadas de GPT-5.2.

En comparativas recientes publicadas por la compañía, Sonnet 4.6 supera en algunos indicadores a Gemini 3 Pro y obtiene mejores resultados que GPT-5.2 en determinadas pruebas. Conviene recordar que estos benchmarks dependen del diseño de cada evaluación y no siempre reflejan el rendimiento en todos los escenarios reales.

El movimiento se produce en un entorno de competencia intensa. Google trabaja en nuevas iteraciones de su línea Gemini, y el mercado anticipa una futura versión 3.1 Pro basada en los avances de Gemini 3 Fast y Deep Think. Al mismo tiempo, otros actores siguen ajustando sus modelos en ciclos cada vez más cortos.

Más contexto implica mayor capacidad de procesamiento de información, pero también más exigencia en infraestructura y control de calidad. Un millón de tokens no solo permite analizar más datos. También plantea desafíos en coherencia, coste computacional y latencia.

La pregunta no es si habrá más actualizaciones. Eso está asegurado. La cuestión es qué modelo logrará equilibrar mejor potencia, coste y fiabilidad en entornos reales. Sonnet 4.6 refuerza la posición intermedia de Anthropic: suficientemente avanzado para tareas complejas, pero pensado para un uso más amplio que su modelo insignia.

La carrera continúa. Y cada actualización es una pieza más en un tablero donde la ventaja dura, como mucho, unos meses.

Temas:
No hay comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *