El operador de robotaxis Waymo dio a conocer el Waymo World Model, un modelo generativo del mundo para simular situaciones de conducción autónoma. Está construido sobre Genie 3, que según Google DeepMind es el modelo de mundo general más avanzado de la compañía, y ha sido adaptado a las exigencias específicas del tráfico vial.

“El sólido conocimiento del mundo de Genie 3, adquirido gracias a su preentrenamiento con un conjunto extremadamente amplio y diverso de vídeos, nos permite explorar situaciones que nuestra flota nunca ha observado directamente”, señala Waymo.

Waymo considera la simulación como uno de los tres pilares centrales de su enfoque de seguridad. Aunque el Waymo Driver ha recorrido casi 200 millones de millas totalmente autónomas, antes de enfrentarse a escenarios en carreteras públicas navega miles de millones de millas en mundos virtuales.

La compañía sostiene que la simulación de escenarios poco frecuentes prepara mejor al Waymo Driver para situaciones complejas. No obstante, en su anuncio no se incluyen resultados de benchmarks concretos ni evaluaciones independientes del modelo.

Conocimiento del mundo preentrenado en lugar de solo datos de conducción

Según Waymo, la mayoría de los modelos de simulación del sector se entrenan exclusivamente con datos propios de conducción, lo que limita el sistema a su experiencia directa. El Waymo World Model adopta un enfoque distinto: aprovecha el amplio conocimiento del mundo que Genie 3 adquirió mediante su preentrenamiento con un conjunto de vídeos extremadamente grande y diverso.

A través de un postentrenamiento especializado, este conocimiento de vídeo en 2D se traduce en salidas 3D de Lidar adaptadas al hardware propio de Waymo. El modelo genera tanto datos de cámara como de Lidar: mientras las cámaras capturan detalles visuales, el Lidar aporta información precisa de profundidad como señal complementaria.

Esto permite simular situaciones que la flota de Waymo nunca ha observado directamente, como un encuentro con un elefante, un tornado, un barrio residencial inundado o nieve en carreteras tropicales rodeadas de palmeras.

Tres mecanismos de control para escenarios contrafactuales

Una característica clave del Waymo World Model es su control granular mediante tres mecanismos. El control de acciones de conducción permite escenarios contrafactuales del tipo “qué habría pasado si…”, por ejemplo, si el Waymo Driver podría haber conducido con mayor determinación. A diferencia de métodos puramente reconstructivos como los 3D Gaussian Splats, que pierden realismo al desviarse de la ruta original, el modelo generativo mantiene la coherencia visual.

El control del diseño de la escena permite ajustar la geometría de las carreteras, los estados de los semáforos y el comportamiento de otros usuarios de la vía. El control por lenguaje es, según Waymo, la herramienta más flexible: mediante prompts de texto se pueden generar la hora del día, las condiciones meteorológicas o incluso escenas completamente sintéticas.

Otra capacidad del modelo es convertir vídeos comunes, como grabaciones de dashcams o teléfonos móviles, en simulaciones multimodales que muestran cómo el Waymo Driver percibiría la escena a través de sus sensores.

A partir de un simple vídeo de dashcam del Parque Nacional de Arches en Utah, el Waymo World Model genera una simulación multimodal completa con vista multicámara y nube de puntos Lidar en 3D.

From a simple dashcam video (above), the Waymo World Model generates a complete simulation with a multi-camera view and 3D LiDAR point cloud (below). | Image: Waymo
A partir de un sencillo vídeo de cámara de salpicadero (arriba), el Modelo Mundial de Waymo genera una simulación completa con una vista multicámara y una nube de puntos LiDAR 3D (abajo). | Imagen: Waymo

Las simulaciones más largas —como la negociación del paso en un callejón estrecho— son más intensivas en cálculo y difíciles de mantener estables. Para ello, Waymo ha desarrollado una versión más eficiente del modelo, capaz de generar escenas prolongadas con un coste computacional “drásticamente reducido”, manteniendo una alta calidad. Esto permitiría realizar simulaciones a gran escala.