Opus 4.8 contra GPT-5.5: el modelo que hace el trabajo frente al que está en cada mesa

Victorino Rodríguez
hace 2 horas
10 min de lectura

Claude Opus 4.8 frente a GPT-5.5: dos formas de poner la IA a trabajar — Claude Opus 4.8 y GPT-5.5: cada uno gana en cosas distintas.

Un equipo de ingeniería arranca un lunes una migración que llevaba dos años aparcada: cientos de miles de líneas de código que nadie quería tocar. Once días después, está mergeada. Unas 750.000 líneas de Rust, con el 99,8% de la batería de tests existente pasando. No la escribió un humano a mano: la orquestó Claude Code con Opus 4.8, repartiendo el trabajo entre subagentes en paralelo mientras el ingeniero seguía con lo suyo. El caso lo recogió MarkTechPost a partir de los materiales de Anthropic.

Esa es la escena que abre mayo de 2026. Y es la razón por la que esta comparativa importa más de lo que parece.

Vamos al grano. En las últimas semanas, los dos modelos que la mayoría de empresas españolas se van a plantear usar de verdad han movido ficha fuerte. Anthropic sacó Claude Opus 4.8 el 28 de mayo, con dos cosas nuevas que cambian cómo se trabaja: «ultracode» y los Dynamic Workflows. OpenAI lanzó GPT-5.5 el 23 de abril y, lo más importante para el día a día, puso a GPT-5.5 Instant como modelo por defecto de todo ChatGPT el 5 de mayo (TechCrunch). O sea: el modelo que ya está delante de tu plantilla sin que nadie elija nada.

No es qué modelo es mejor. Es qué modelo para qué trabajo.

En Aimoova usamos los dos a diario, y no por diplomacia: ganan en cosas distintas. Te lo explicamos con los números, sin ser fanboys de nadie, y al final te decimos cuál encaja según tu caso.

Opus 4.8 no es un salto enorme, es un salto en lo que más duele

Anthropic posiciona Opus 4.8 como su modelo más capaz disponible de forma general hasta la fecha. Pero lo interesante no es el titular, es dónde mejora.

Lo primero, y para nosotros lo más relevante en un contexto empresarial: Opus 4.8 deja pasar errores en su propio código unas cuatro veces menos que Opus 4.7 sin avisar de ellos (Anthropic). Traducido: el modelo es ahora mucho mejor pillándose sus propios fallos. Anthropic añade que es «más propenso a señalar incertidumbres sobre su trabajo y menos propenso a hacer afirmaciones sin respaldo». En las evaluaciones de fiabilidad hay una mejora de más de 10x en exceso de confianza frente a 4.7, y por primera vez un modelo de Claude marca 0% en reportar resultados defectuosos de forma acrítica.

Si has trabajado con modelos que «te lo daban todo por hecho» y luego descubrías que la mitad no compilaba, sabes por qué esto vale dinero.

En coding sobre código real —que es lo que de verdad importa, no los ejercicios de juguete— Opus 4.8 saca 69,2% en SWE-bench Pro, subiendo desde el 64,3% de Opus 4.7 (the-decoder). En SWE-bench Verified pasa del 87,6% al 88,6%. Y en uso del ordenador, ese terreno donde el modelo controla un navegador o una interfaz de escritorio, marca 84% en Online-Mind2Web, que Anthropic enmarca como por delante tanto de 4.7 como de GPT-5.5. Anthropic lo llama el modelo más fuerte en uso de ordenador y agente de navegador que ha probado.

Hay más: el evaluador independiente Artificial Analysis coloca a Opus 4.8 como nº1 de su Intelligence Index v4.0 con 61,4, por delante de GPT-5.5 en xhigh (60,2) y de Opus 4.7 (57,3). Importante el matiz, que el propio Artificial Analysis señala: esa puntuación refleja el modo de máximo esfuerzo, así que el resultado real varía según cómo lo configures.

Y lo mejor de todo para una empresa que mira la factura:

El precio no sube ni un céntimo.

Opus 4.8 mantiene exactamente el mismo precio que 4.7: 5 $ por millón de tokens de entrada y 25 $ por millón de salida (Anthropic). El upgrade es gratis. Encima, el modo rápido —que corre a hasta 2,5x la velocidad de salida con la misma calidad— es ahora tres veces más barato que en modelos anteriores: 10 $/50 $ frente a los 30 $/150 $ de antes (Anthropic).

Dynamic Workflows y ultracode: cuando le das una orden y se monta su propio equipo

Esto es lo nuevo de verdad, y donde Anthropic mueve la pelota a un sitio donde GPT-5.5 no tiene equivalente directo.

Los Dynamic Workflows son una función en research preview dentro de Claude Code. Funciona así: Claude escribe un script de orquestación que planifica el trabajo y lanza de decenas a cientos de subagentes en paralelo dentro de una sola sesión (MarkTechPost). Esos subagentes atacan el problema desde ángulos independientes; luego, otros agentes intentan refutar lo que han encontrado; y la cosa itera hasta que las respuestas convergen. Los resultados se verifican antes de llegarte a ti. Es orquestación multi-agente con autocrítica incorporada.

Hay límites duros, y esto es sano: 16 subagentes concurrentes y 1.000 en total por ejecución (MarkTechPost). Ese tope es, en la práctica, un guardarraíl de gasto y de radio de impacto. Requiere una versión reciente de Claude Code y está disponible en planes Max, Team y Enterprise (en Max y Team viene activado por defecto; en Enterprise lo activa el admin).

¿Y «ultracode»? Aquí hay que aclarar algo porque se está contando mal por ahí. Ultracode no es un modelo nuevo de la API. Es la opción de máximo esfuerzo dentro de Claude Code (MarkTechPost). Lo que hace es combinar el razonamiento «xhigh» con la orquestación automática de Dynamic Workflows: Claude decide cuándo merece la pena montar un workflow y se autoverifica antes de terminar. El control de esfuerzo tiene varios niveles —low, high (el default), xhigh y max— y ultracode se sienta encima de todo eso.

Y corre en segundo plano mientras tu sesión sigue respondiendo, así que una sola instrucción puede lanzar un trabajo paralelo grande sin bloquearte.

Ahora, el aviso honesto, porque esto no es magia gratis:

Ambas funciones consumen muchos más tokens que una sesión normal. El coste sube rápido.

Es literalmente lo que recomienda Anthropic: empieza acotado, vigila el uso y verifica las salidas antes de fiarte de ejecuciones largas (MarkTechPost). Si eres una pyme, esto va a misa: acota las ejecuciones, deja a una persona en el control de verificación y manda la mayoría del trabajo cotidiano al modelo barato. El tope de 1.000 subagentes ayuda, pero no sustituye al criterio.

GPT-5.5 no ha venido a perder, y en varias cosas gana

Aquí no vamos a hacer trampas. GPT-5.5 tiene victorias reales y bien medidas.

Empecemos por lo que toca a más gente: GPT-5.5 Instant es el modelo por defecto de todo ChatGPT desde el 5 de mayo (TechCrunch). Eso significa que la mayoría de tu plantilla no técnica ya lo está usando sin elegir nada. Y la mejora más relevante para ese uso es la honestidad: OpenAI reporta que Instant produce un 52,5% menos de afirmaciones alucinadas que GPT-5.3 Instant en prompts de alto riesgo de medicina, derecho y finanzas (OpenAI), y un 37,3% menos de afirmaciones inexactas en conversaciones que los usuarios habían marcado por errores factuales (the-decoder). Hay que decirlo: esas cifras salen de los benchmarks internos de OpenAI y no comparan con Google ni Anthropic, así que su verificación independiente es limitada. Aun así, la mejora va en la dirección correcta para el trabajo de investigación y análisis del día a día.

Además, Instant da respuestas más directas, hace menos preguntas de seguimiento innecesarias y reduce el ruido —menos sobreformateo, menos emojis gratuitos (9to5Mac)— y trae un panel de «fuentes de memoria» que te muestra qué chats, archivos o correos de Gmail moldearon una respuesta personalizada, con controles para borrar o corregir esas fuentes (TechCrunch).

En el terreno técnico, GPT-5.5 manda en sitios concretos:

Terminal y DevOps: GPT-5.5 marca 82,7% en Terminal-Bench 2.0, un resultado puntero (Vellum). En la propia tirada comparativa de Anthropic en Terminal-Bench, GPT-5.5 saca 78,2% frente al 74,6% de Opus 4.8. Si tu trabajo vive en la terminal, esto importa.
Matemáticas frontera: GPT-5.5 lidera FrontierMath Tiers 1-3 con 51,7% frente al 43,8% de Claude (Vellum), y reporta 35,4% en el Tier 4.
Razonamiento abstracto y ciberseguridad: ARC-AGI-2 al 85,0% (frente al 75,8% de Opus 4.7) y CyberGym al 81,8% (frente al 73,1%) (Vellum).
Eficiencia de pasos: Artificial Analysis señala que Opus 4.8 todavía necesita alrededor de un 30% más de turnos que GPT-5.5 en tareas agénticas. Más turnos pueden ser más tokens, y eso es coste.

OpenAI afirma además que GPT-5.5 reescribió su infraestructura de servicio, mejorando la velocidad de generación de tokens en más del 20%, y que genera ~40% menos tokens de salida que GPT-5.4, lo que compensa en parte su subida de precio (Vellum). Porque sí, GPT-5.5 subió: de los 2,50 $/15 $ de GPT-5.4 a 5 $/30 $ por millón (OpenAI), con un tier Pro más caro por encima.

Y la frase que mejor lo resume, de un analista independiente: GPT-5.5 es «el Toyota Camry de los modelos de IA» — no el más emocionante en ninguna categoría, pero el que menos se rompe. No es un insulto. Para una empresa, «el que menos se rompe» es a veces exactamente lo que quieres.

Dónde se cruzan los precios (y por qué la tabla simple miente)

Ojo con la comparación de precios, porque circula mucha versión mal contada.

A volumen estándar, la salida de GPT-5.5 (30 $) es MÁS cara que la de Opus 4.8 (25 $), no al revés (OpenAI, Anthropic). En entrada empatan a 5 $. Donde de verdad se separan es en contexto larguísimo: por encima de 272K tokens de entrada, GPT-5.5 cobra ~2x en entrada y ~1,5x en salida durante toda la sesión (OpenAI), mientras que Opus 4.8 se mantiene plano en 5 $/25 $ hasta su ventana de 1M de tokens, sin recargo (Anthropic). Para sesiones agénticas muy largas —las que de verdad mueven la aguja en automatización— Opus puede salir más barato pese a todo.

Y un aviso de andar por casa: si ves por ahí un post citando a Opus a 15 $/75 $, o a GPT-5.5 a 3 $/15 $, está usando precios inventados o viejos. Los oficiales son 5 $/25 $ (Opus 4.8, Anthropic) y 5 $/30 $ (GPT-5.5, OpenAI). Verifica siempre contra la página oficial.

Un matiz más para no sobreinterpretar los benchmarks: los resultados de Opus 4.8 frente a GPT-5.5 cambian según en qué scaffold confíes, por la sensibilidad del harness, los ajustes de esfuerzo de razonamiento y las diferencias de herramientas disponibles. Ambos fabricantes siguen siendo opacos en parámetros, arquitectura y cómputo de entrenamiento. Así que tómate cualquier ranking absoluto con una pizca de sal, incluido el nuestro.

Aquí los tienes lado a lado:

Lanzamiento: Opus 4.8 → 28 de mayo de 2026 (Anthropic) · GPT-5.5 → 23 de abril; Instant como default el 5 de mayo (OpenAI)
Coding en código real (SWE-bench Pro): Opus 4.8 → 69,2% · GPT-5.5 → 58,6%
Uso del ordenador (Online-Mind2Web): Opus 4.8 → 84% — por delante de GPT-5.5 (Anthropic) · GPT-5.5 → Por detrás de Opus 4.8
Terminal / DevOps (Terminal-Bench 2.0): Opus 4.8 → 74,6% · GPT-5.5 → 82,7% (ventaja GPT-5.5)
Matemáticas frontera (FrontierMath T1-3): Opus 4.8 → 43,8% · GPT-5.5 → 51,7% (ventaja GPT-5.5)
Contexto larguísimo (GraphWalks 1M): Opus 4.8 → 68,1% · GPT-5.5 → 45,4%
Intelligence Index (Artificial Analysis v4.0): Opus 4.8 → 61,4 — nº1 · GPT-5.5 → 60,2 (xhigh)
Eficiencia de pasos en tareas agénticas: Opus 4.8 → ~30% más turnos · GPT-5.5 → Más eficiente por tarea
Precio API estándar (entrada / salida por M): Opus 4.8 → 5 $ / 25 $, sin recargo hasta 1M · GPT-5.5 → 5 $ / 30 $; ~2x entrada por encima de 272K
Modo rápido: Opus 4.8 → Hasta 2,5x velocidad, 3x más barato que antes · GPT-5.5 → Sin equivalente publicado
Orquestación multi-agente nativa: Opus 4.8 → Dynamic Workflows + ultracode (preview) · GPT-5.5 → Sin equivalente; visión «super app»
Mejor encaje: Opus 4.8 → Trabajo autónomo: coding, automatizaciones largas · GPT-5.5 → Asistente diario de toda la plantilla

Disponibilidad: dónde puedes meter cada uno hoy

Esto es práctico y a menudo decide más que un benchmark.

Opus 4.8 está para usuarios Pro, Max, Team y Enterprise; nativo en la Claude Platform/API, en Claude Code, y en AWS Bedrock, Google Cloud Vertex AI y Microsoft Foundry (Anthropic). Soporta ventana de 1M de tokens por defecto en la API, Bedrock y Vertex (200K en Microsoft Foundry), con 128K de salida máxima. El ID del modelo en la API es claude-opus-4-8. Y ya está disponible de forma general en GitHub Copilot desde el 28 de mayo, seleccionable en VS Code, Visual Studio, JetBrains, Xcode y demás (GitHub).

GPT-5.5 llega en tres sabores dentro de ChatGPT: Instant (el caballo de batalla diario), Thinking (razonamiento profundo) y Pro (máxima dificultad) (OpenAI). Su contexto ronda el millón de tokens, aunque dentro de Codex queda limitado a 400K (Vellum). Y se enmarca en la visión «super app» de OpenAI: combinar ChatGPT, Codex y un navegador con IA en un único servicio para empresas (TechCrunch).

Qué hacemos con esto: cuál elegir según tu caso

Te lo damos sin rodeos, que es lo que querrías que te diéramos a nosotros.

Si tu trabajo es construir y automatizar de verdad — elige Opus 4.8.

Para flujos agénticos autónomos, coding sobre código real, automatizaciones largas multi-paso, orquestación multi-agente vía Dynamic Workflows y construcción de herramientas internas, Opus 4.8 es el motor de «haz el trabajo de punta a punta». Su ventaja en coding de codebase real (69,2% vs 58,6% en SWE-bench Pro), en uso de ordenador (84%) y su capacidad de operar más tiempo de forma independiente con ultracode lo hacen el que pones a trabajar, no el que pones a charlar.

Si lo que necesitas es un asistente para toda la plantilla — GPT-5.5 te lo pone fácil.

Como modelo diario, con menos alucinaciones en consultas cotidianas, personalización con memoria y ya integrado por defecto en ChatGPT, GPT-5.5 es el de menos fricción para que cualquiera de tu equipo —técnico o no— lo use sin pensar (TechCrunch, the-decoder).

Y si me preguntas qué hace la mayoría de empresas sensatas: usar los dos y enrutar por tarea.

No hay un único «ganador» sobre el que estandarizar. La jugada es GPT-5.5 como asistente diario del equipo (asientos de ChatGPT, texto de alto volumen) y Opus 4.8 / Claude Code para el trabajo pesado de construir y automatizar. No es indecisión: es arquitectura. La industria va por ahí —cada vez más empresas corren varios modelos en producción con enrutado dinámico—, y tiene sentido económico: mandar lo simple al modelo barato y reservar el modelo frontera para lo complejo permite recortes de coste enormes manteniendo casi toda la calidad (investigación de UC Berkeley sobre enrutado de modelos, RouteLLM).

Para una pyme, la regla de gobierno es simple: acota las ejecuciones de Dynamic Workflows, deja a una persona en el control de verificación y enruta la mayoría del trabajo diario al modelo más barato para que el gasto mensual sea predecible. El tope de 1.000 subagentes te protege el bolsillo, pero el criterio lo pones tú.

Llevamos tiempo ayudando a empresas a elegir y combinar estos modelos según la tarea: cuál pones a redactar correos, cuál pones a migrar un sistema entero, y dónde trazas la línea para que la factura no se desboque. Si quieres una segunda opinión sobre cuál encaja con tu operación —la tuya, con tus procesos y tu equipo, no la del benchmark—, escríbenos. Una conversación honesta, sin propuesta de 40 páginas ni venta agresiva.

Fuentes: Anthropic — Claude Opus 4.8 · OpenAI — GPT-5.5 · TechCrunch · MarkTechPost · GitHub Changelog · Artificial Analysis · Vellum