El modelo estándar GPT-5.4 está disponible en la interfaz web de ChatGPT, a través de la API y en la herramienta Codex. La versión GPT-5.4 Thinking se ha abierto para los suscriptores Plus, Team y Pro.

OpenAI ha lanzado GPT-5.4 y GPT-5.4 Pro apenas dos días después de presentar la versión 5.3 Instant.
OpenAI ha lanzado GPT-5.4 y GPT-5.4 Pro apenas dos días después de presentar la versión 5.3 Instant.

GPT-5.4 Pro está destinada a usuarios Pro y clientes Enterprise, y también está disponible a través de la API.

El precio base comienza en 2,5 $ por 1 millón de tokens de entrada y 15 $ por 1 millón de tokens de salida. Las tarifas de la versión Pro son significativamente más altas: 30 $ y 180 $ por 1 millón de tokens respectivamente.

Rendimiento en tareas reales

GPT-5.4 ofrece resultados más estables y de mayor calidad en escenarios de uso reales. En el benchmark GDPval, que evalúa la ejecución de tareas en 44 profesiones, el modelo alcanzó un resultado del 83%. Esto indica que el sistema opera al nivel de especialistas profesionales o incluso los supera. Para comparación, GPT-5.2 obtuvo un 70,9%.

Fuente: OpenAI
Fuente: OpenAI.

Los desarrolladores pusieron especial énfasis en el trabajo con hojas de cálculo, presentaciones y documentos. En tareas comparables a las de un analista junior de banca de inversión, GPT-5.4 obtuvo un 87,3%, frente al 68,4% de GPT-5.2.

Las presentaciones creadas por el nuevo modelo fueron preferidas por los evaluadores en el 68% de los casos, gracias a una mejor estética, mayor variedad y un uso más eficiente de la generación de imágenes.

Fuente: OpenAI.
Fuente: OpenAI.

GPT-5.4 también se convirtió en el modelo más preciso de OpenAI en términos de fiabilidad factual. En pruebas con prompts que contenían errores conocidos previamente:

  • las afirmaciones individuales resultaron falsas un 33% menos;
  • las respuestas completas contenían errores un 18% menos en comparación con GPT-5.2.

Visión por computadora

Esta versión es la primera en incorporar capacidades integradas de visión por computadora y control del PC. El modelo puede utilizar el ratón y el teclado orientándose mediante capturas de pantalla, y también puede escribir código de automatización a través de Playwright.

Su comportamiento puede configurarse para escenarios específicos teniendo en cuenta el nivel de riesgo permitido.

En el benchmark OSWorld-Verified (control del escritorio), GPT-5.4 completó con éxito el 75% de las tareas, superando a la versión anterior (47,3%) e incluso a los humanos (72,4%). La mejora está relacionada con una percepción visual más avanzada:

  • en la prueba MMMU-Pro (comprensión y razonamiento) obtuvo un 81,2% frente al 79,5% de GPT-5.2;
  • en OmniDocBench (análisis de documentos) el promedio de errores se redujo de 0,140 a 0,109.

Programación

En programación, el modelo alcanzó el nivel del modelo especializado GPT-5.3-Codex, pero funciona más rápido.

Codex ahora incluye el modo /fast, que acelera la generación en 1,5 veces sin reducir la calidad. Según pruebas internas, GPT-5.4 mostró resultados sólidos en tareas complejas de desarrollo frontend.

OpenAI también presentó una habilidad experimental llamada Playwright (Interactive). Permite al modelo depurar visualmente aplicaciones web y Electron, probando su propio código mientras lo genera.

Herramientas

GPT-5.4 introduce la función Tool Search. Anteriormente, el sistema debía cargar previamente en el contexto las descripciones de todos los plugins disponibles, lo que añadía miles de tokens adicionales a cada solicitud y aumentaba el costo.

Ahora el modelo recibe solo una lista básica y puede encontrar y cargar de forma independiente los parámetros necesarios cuando lo requiere. En pruebas basadas en MCP Atlas, este enfoque redujo el consumo de tokens en un 47% sin pérdida de precisión.

La búsqueda web también se volvió más eficiente. En el benchmark BrowseComp los resultados aumentaron un 17%, mientras que la versión Pro alcanzó un récord del 89,3%. GPT-5.4 Thinking es más eficaz recopilando información de múltiples fuentes, manejando consultas complejas y generando respuestas más estructuradas.

Control y contexto

Al trabajar con solicitudes complejas, GPT-5.4 Thinking en ChatGPT primero muestra al usuario un plan de acción. Esto permite ajustar la dirección en tiempo real sin reiniciar la generación ni hacer aclaraciones adicionales. La función ya está disponible en el sitio web y en la aplicación de Android, y pronto llegará a iOS.

El modelo también mantiene mejor el contexto en conversaciones largas y dedica más tiempo a analizar tareas complejas. Esto ayuda a conservar la coherencia y la relevancia incluso al trabajar con grandes volúmenes de información.