La startup de IA Oumi, por encargo de The New York Times, analizó un total de 4.326 búsquedas de Google utilizando el benchmark estándar de la industria SimpleQA. Las pruebas se realizaron en dos fases: una en octubre con Gemini 2 como modelo base, y otra en febrero tras la actualización a Gemini 3.

Los resultados mostraron que los AI Overviews fueron correctos en el 85% de los casos con Gemini 2, cifra que aumentó al 91% con Gemini 3. Aunque esto parece una tasa de éxito alta, a la escala de Google sigue traduciéndose en millones de respuestas incorrectas por hora.

Sin embargo, el estudio no responde a una pregunta clave: ¿recibirían los usuarios mejor información a través de los resultados de búsqueda tradicionales o de fuentes alternativas? Tampoco todo lo que se publica en sitios web es exacto. La métrica crítica no es la corrección absoluta, sino si los usuarios reciben, en conjunto, información más precisa con IA que sin ella.

Mejores respuestas, verificación más débil

Otro hallazgo importante: aunque la precisión mejoró con Gemini 3, la verificabilidad de las respuestas empeoró. Oumi analizó si las fuentes enlazadas por Google realmente respaldaban las respuestas ofrecidas.

Con Gemini 2, el 37% de las respuestas correctas eran “ungrounded”, es decir, las fuentes enlazadas no respaldaban completamente la información. Con Gemini 3, esta cifra subió al 56%. En muchos casos, los usuarios no pueden verificar la exactitud de una respuesta basándose en las fuentes proporcionadas.

La calidad de las fuentes también es discutible. Entre las 5.380 fuentes citadas, Facebook y Reddit fueron la segunda y la cuarta más frecuentes. En las respuestas correctas, Facebook fue citado en el 5% de los casos; en las incorrectas, en el 7%. Esto podría reflejar una preferencia de Google por fuentes menos propensas a emprender acciones legales por el uso de su contenido.

También pueden producirse errores incluso cuando el sistema identifica la fuente correcta. Por ejemplo, al preguntar por el Classical Music Hall of Fame, Google encontró el sitio correcto donde Yo-Yo Ma figuraba como miembro, pero aun así afirmó que no existía constancia de su incorporación.

En otro caso, al preguntar por un río al oeste de Goldsboro, Carolina del Norte, Google identificó correctamente un sitio web turístico, pero interpretó mal la información y nombró el río Neuse en lugar del verdadero río situado al oeste, el Little River.

De forma similar, al preguntar por el Museo Bob Marley, el AI Overview de Google indicó incorrectamente que se inauguró en 1987 en vez de 1986, basándose en información contradictoria procedente de una publicación de Facebook, un blog de viajes y una página de Wikipedia.

Google critica el estudio

Para verificar las respuestas, Oumi utilizó su propio modelo de verificación de IA, HallOumi, lo que permitió una evaluación a gran escala. Sin embargo, esto introduce una limitación importante: la propia IA verificadora también puede cometer errores. Además, los AI Overviews pueden generar respuestas diferentes a consultas idénticas, incluso con solo unos segundos de diferencia.

Google criticó el estudio y lo calificó de defectuoso. El portavoz Ned Adriance argumentó que el benchmark SimpleQA contiene inexactitudes y no refleja el comportamiento real de búsqueda de los usuarios.

A pesar de su nombre, el benchmark SimpleQA incluye preguntas especialmente difíciles en las que al menos un modelo de IA ya había fallado anteriormente. También está diseñado para escenarios de respuesta sin acceso a internet.

Según el Artificial Analysis Intelligence Index, el modelo más reciente de Google, Gemini 3.1 Pro, muestra una reducción de 38 puntos porcentuales en la tasa de alucinaciones en comparación con Gemini 3. En el momento de la prueba, la Búsqueda de Google probablemente utilizaba una versión más ligera, tipo “Flash”, de Gemini 3. Según Google, los resultados que incorporan búsqueda web son más precisos que los basados únicamente en el conocimiento del modelo.

El impacto de las respuestas con IA en la web

La controversia más amplia en torno a los AI Overviews de Google se refiere a su impacto estructural en internet. Al ofrecer respuestas directas en lugar de dirigir a los usuarios a sitios web externos, Google reduce el tráfico hacia los editores y debilita su base económica.

La web abierta corre el riesgo de perder su función como red de información libremente enlazada, siendo reemplazada gradualmente por una interfaz centralizada de IA controlada por Google. Para la mayoría de los usuarios, una tasa de precisión del 90% es suficiente, lo que reduce el incentivo de verificar la información en las fuentes originales.