Gemini 3.1 Pro: Google duplica el razonamiento y desafía a GPT-5.2

Detalles: By Javier Morales; Categoría: Modelos; 4 m; 19 Febrero 2026; 137

Con Gemini 3.1 Pro, Google busca reforzar de forma notable la inteligencia central de su familia de modelos. En un exigente benchmark de razonamiento, el rendimiento se ha más que duplicado frente a su predecesor. Dicho esto, los benchmarks siguen siendo solo benchmarks.

Google ha presentado Gemini 3.1 Pro, una actualización de la serie Gemini 3 que, según la compañía, supone un salto importante en las capacidades de resolución de problemas. El modelo se está desplegando de inmediato en modo preview para desarrolladores, empresas y usuarios finales.

Gemini 3.1 Pro está pensado para tareas “en las que una respuesta simple no es suficiente”, escribe el equipo de Gemini en su blog oficial. Google describe el modelo como la inteligencia base mejorada que también sustenta los avances observados en Gemini 3 Deep Think, actualizado apenas una semana antes. Mientras que Deep Think apunta a problemas altamente complejos en ciencia, investigación e ingeniería, 3.1 Pro pretende llevar esos avances a aplicaciones cotidianas.

Más del doble de rendimiento en razonamiento en ARC-AGI-2

La mejora más llamativa aparece en el benchmark ARC-AGI-2, que mide razonamiento abstracto. Según Google, Gemini 3.1 Pro alcanza un 77,1%, más del doble del 31,1% logrado por Gemini 3 Pro. Esto lo sitúa por delante de Opus 4.6 de Anthropic (68,8%) y GPT-5.2 de OpenAI (52,9%).

Aun así, otros sistemas de IA han obtenido puntuaciones incluso más altas en el pasado sin transformar de manera radical el panorama de la IA, lo que vuelve a poner de relieve los límites de las comparaciones basadas exclusivamente en benchmarks.

Google también reporta resultados sólidos en varios benchmarks adicionales. En GPQA Diamond, que evalúa conocimientos científicos, Gemini 3.1 Pro logra un 94,3%. En SWE-Bench Verified, centrado en tareas de programación agentiva, alcanza un 80,6%, prácticamente al mismo nivel que Opus 4.6 con 80,8%. Otros benchmarks agentivos muestran un rendimiento igualmente fuerte, como MCP Atlas (69,2%) y BrowseComp (85,9%).

En LiveCodeBench Pro, un benchmark competitivo de programación, el modelo obtiene una puntuación Elo de 2887, superando tanto a Gemini 3 Pro (2439) como a GPT-5.2 (2393).

La propia comparación de benchmarks de Google sitúa a Gemini 3.1 Pro en la cima en la mayoría de categorías, aunque probablemente no por mucho tiempo. | Fuente: Google — La propia comparación de benchmarks de Google coloca a Gemini 3.1 Pro en lo más alto en la mayoría de categorías, aunque probablemente no por mucho tiempo. | *Fuente: Google*

Aun así, Gemini 3.1 Pro no lidera en todos los frentes. En el benchmark multimodal MMMU Pro, el anterior Gemini 3 Pro lo supera ligeramente (81,0% frente a 80,5%). Por su parte, en Humanity’s Last Exam con soporte de herramientas, Opus 4.6 de Anthropic se coloca en cabeza con un 53,1%.

Una crítica recurrente a los modelos recientes de Google sigue siendo su uso menos eficiente de herramientas en comparación con los sistemas de OpenAI y Anthropic.

Como siempre, los benchmarks ofrecen solo una visión limitada del rendimiento en el mundo real, especialmente en actualizaciones incrementales como el paso de 3.0 a 3.1. El propio Google sugiere que la mejor forma de evaluar el modelo es probarlo con prompts conocidos, en los que las expectativas y los resultados anteriores estén bien definidos.

Del razonamiento avanzado a las aplicaciones prácticas

Según Google, Gemini 3.1 Pro utiliza razonamiento avanzado para cerrar la brecha entre APIs complejas y un diseño fácil de usar. Un ejemplo concreto es un panel aeroespacial en tiempo real, donde el modelo configuró de forma autónoma un flujo público de telemetría para visualizar la órbita de la Estación Espacial Internacional.

Otro caso de uso es la capacidad de generar SVG animados directamente a partir de prompts de texto, listos para integrarse en sitios web, o incluso crear páginas web completas. En esencia, tareas que se resuelven fundamentalmente mediante código.

Amplia disponibilidad y precios escalonados

Google está desplegando Gemini 3.1 Pro de forma simultánea en múltiples plataformas. Los desarrolladores pueden acceder a él a través de la Gemini API en Google AI Studio, Gemini CLI, la plataforma de desarrollo agentivo Google Antigravity y Android Studio. Las empresas pueden utilizar el modelo mediante Vertex AI y Gemini Enterprise. Los usuarios finales tendrán acceso a través de la app Gemini y NotebookLM, este último reservado para suscriptores Pro y Ultra.

Los precios de la API replican los de Gemini 3 Pro y se ajustan según la longitud del prompt. En comparación con los modelos Opus de Anthropic, Gemini sigue siendo significativamente más económico.

Precios (API)

Hasta 200.000 tokens
- Entrada: 2,00 USD / 1M tokens
- Salida: 12,00 USD / 1M tokens
- Caché: 0,20 USD / 1M tokens
Más de 200.000 tokens
- Entrada: 4,00 USD / 1M tokens
- Salida: 18,00 USD / 1M tokens
- Caché: 0,40 USD / 1M tokens
Almacenamiento de caché: 4,50 USD / 1M tokens por hora
Búsqueda: 5.000 prompts/mes gratis, luego 14,00 USD / 1.000 solicitudes

No obstante, Gemini 3.1 Pro sigue estando en fase preview. Google planea perfeccionar el modelo a partir del feedback de los usuarios, especialmente en “workflows agentivos ambiciosos”, antes de avanzar hacia su disponibilidad general completa.

About The Hosts

Javier Morales

Senior AI Research Analyst

Es investigador y analista senior con base en España. Su trabajo se centra en el estudio de modelos tecnológicos a gran escala, su integración en infraestructuras empresariales y las implicaciones económicas y sociales de su adopción.