Categoría: Análisis
Javier Morales
Share
Listen On

Investigadores de Meta FAIR y de la Universidad de Nueva York han realizado un estudio sistemático sobre cómo entrenar modelos de inteligencia artificial multimodales desde cero. Sus resultados cuestionan varias suposiciones ampliamente aceptadas en el campo.

Los grandes modelos de lenguaje han definido la era de los modelos fundacionales. Sin embargo, en su artículo “Beyond Language Modeling”, los investigadores argumentan que el texto es, en última instancia, una compresión con pérdida de la realidad. Haciendo referencia a la alegoría de la cueva de Platón, sugieren que los modelos de lenguaje han aprendido a describir las sombras en la pared sin haber visto nunca los objetos que las proyectan. Además, los datos de texto de alta calidad son finitos y eventualmente podrían agotarse.

Ejemplos de los cuatro tipos de datos de entrenamiento: texto simple, pares imagen-texto, secuencias de video basadas en acciones y video sin procesar. | Imagen: Tong et al.
Ejemplos de los cuatro tipos de datos de entrenamiento: texto simple, pares imagen-texto, secuencias de video basadas en acciones y video sin procesar. | Imagen: Tong et al.

Para abordar esta limitación, el equipo entrenó un único modelo completamente desde cero. Combina la predicción tradicional de tokens para el lenguaje con un método de difusión llamado Flow Matching para los datos visuales. El entrenamiento incluyó texto, video sin procesar, pares imagen-texto y videos condicionados por acciones. Un punto metodológico clave fue evitar construir el modelo sobre uno de lenguaje ya existente, lo que previene que conocimientos previos distorsionen los resultados.

Arquitectura del modelo que combina la predicción de texto e imagen en un único sistema. | Imagen: Tong et al.
Arriba: arquitectura del modelo que combina predicción de texto e imagen. Abajo: los cinco ejes analizados. | Imagen: Tong et al.

Un único codificador visual basta para comprender y generar imágenes

Enfoques anteriores como Janus o BAGEL utilizan codificadores visuales separados para la comprensión y la generación de imágenes. Según el estudio, esta separación podría no ser necesaria.

Un Representation Autoencoder (RAE) basado en el modelo visual SigLIP 2 superó a los codificadores VAE tradicionales tanto en generación de imágenes como en comprensión visual, manteniendo al mismo tiempo el rendimiento lingüístico al nivel de un modelo puramente textual.

RAE basado en SigLIP 2 supera a los codificadores VAE en generación y comprensión visual sin afectar el rendimiento del lenguaje. | Imagen: Tong et al.
RAE basado en SigLIP 2 supera a los codificadores VAE en generación de imágenes y comprensión visual sin degradar el rendimiento del lenguaje. | Imagen: Tong et al.

En lugar de dos rutas de procesamiento separadas, un único codificador puede manejar ambas tareas, simplificando considerablemente la arquitectura.

Otra suposición común sostiene que la visión y el lenguaje compiten dentro de un mismo modelo. El estudio sugiere lo contrario. El entrenamiento con video sin anotaciones de texto no perjudicó el rendimiento lingüístico. De hecho, en un conjunto de validación, el modelo entrenado con texto y video superó ligeramente la línea base basada únicamente en texto.

Más texto mejora la generación de imágenes: el texto adicional reduce la pérdida de difusión y aumenta la puntuación GenEval. | Imagen: Tong et al.
Más texto mejora la generación de imágenes: el texto adicional reduce la pérdida de difusión y aumenta la puntuación GenEval más allá de la línea base visual. | Imagen: Tong et al.

También apareció un efecto de sinergia interesante. Cuando se combinaron 20 mil millones de tokens de VQA (datos de preguntas y respuestas visuales) con 80 mil millones de tokens de video, pares imagen-texto (MetaCLIP) o texto, el modelo resultante superó a otro entrenado con 100 mil millones de tokens de VQA exclusivamente.

El modelado del mundo surge de forma natural

Los investigadores también probaron si el modelo podía predecir estados visuales futuros. Dada una imagen actual y una instrucción de navegación, el sistema debía generar el siguiente estado visual. Las acciones se codificaron directamente como texto, sin necesidad de modificar la arquitectura.

Los resultados sugieren que las capacidades de modelado del mundo surgen principalmente del entrenamiento multimodal general, y no de datos de navegación específicos. Con apenas un 1 % de datos específicos de la tarea, el modelo ya alcanzó un rendimiento competitivo.

El modelo genera secuencias de imágenes basadas en entradas de teclado o instrucciones en lenguaje natural. | Imagen: Tong et al.
El modelo genera secuencias de imágenes basadas en entradas de teclado (W, A, D) o instrucciones en lenguaje natural como “get out of the shadow!”, sin haber visto estas instrucciones durante el entrenamiento. | Imagen: Tong et al.

El sistema incluso pudo responder a comandos en lenguaje natural como “Get out of the shadow!” y generar secuencias de imágenes apropiadas, a pesar de no haber visto nunca ese tipo de instrucciones durante el entrenamiento.

Mixture-of-Experts aprende especialización automáticamente

El estudio también analizó arquitecturas Mixture-of-Experts (MoE). En este enfoque, cada token de entrada se dirige solo a un subconjunto de módulos especializados, en lugar de activar todo el modelo. Esto reduce el coste computacional mientras aumenta la capacidad total del sistema.

En un modelo con 13,5 mil millones de parámetros, de los cuales solo 1,5 mil millones se activan por token, la arquitectura MoE superó tanto a modelos densos como a estrategias de separación diseñadas manualmente.

El modelo desarrolla especialización de forma natural entre expertos de texto y visión. | Imagen: Tong et al.
El modelo desarrolla especialización de forma natural: las primeras capas están dominadas por expertos en texto, mientras que en capas profundas aumentan los expertos visuales y multimodales. | Imagen: Tong et al.

Otro hallazgo notable es que la comprensión y la generación de imágenes activan los mismos expertos, con correlaciones de al menos 0,90 en todas las capas. Los investigadores interpretan esto como evidencia de la llamada “Bitter Lesson” de Rich Sutton: aprender a partir de grandes volúmenes de datos suele superar a las soluciones diseñadas manualmente.

La visión requiere muchos más datos que el lenguaje

Entrenar modelos de IA siempre implica decidir cómo distribuir el presupuesto computacional entre tamaño del modelo y volumen de datos. Las conocidas leyes de escalado Chinchilla sugieren que, para modelos de lenguaje, ambos deben crecer a un ritmo similar.

Sin embargo, al aplicar estas leyes a un modelo conjunto de visión y lenguaje, los investigadores encontraron una fuerte asimetría. Para el lenguaje se mantiene el equilibrio tradicional, pero para la visión la estrategia óptima se desplaza claramente hacia más datos en lugar de un modelo más grande.

A medida que los modelos crecen, la diferencia se vuelve dramática. Partiendo de un modelo base de 1 mil millón de parámetros, la necesidad relativa de datos visuales frente a datos de lenguaje aumenta 14 veces con 100 mil millones de parámetros y 51 veces con 1 billón de parámetros.

Las leyes de escalado difieren entre visión y lenguaje. | Imagen: Tong et al.
Las leyes de escalado para visión y lenguaje difieren significativamente: el lenguaje sigue un equilibrio cercano al de Chinchilla, mientras que la visión requiere muchos más datos. | Imagen: Tong et al.

Este desequilibrio es difícil de resolver en modelos densos tradicionales, donde todos los parámetros se activan en cada paso de cálculo.

La arquitectura Mixture-of-Experts ayuda a mitigar el problema. Como solo se activa una fracción de expertos por token, el modelo puede tener una gran cantidad total de parámetros sin aumentar proporcionalmente el coste computacional. Así, el lenguaje se beneficia de una alta capacidad de parámetros mientras que la visión aprovecha grandes volúmenes de datos. Según el estudio, MoE reduce la asimetría de escalado entre ambas modalidades aproximadamente a la mitad.

Los investigadores subrayan que su trabajo se centra únicamente en el preentrenamiento. El ajuste fino y el aprendizaje por refuerzo no fueron analizados en profundidad. Aun así, los resultados sugieren que la frontera entre modelos multimodales y modelos del mundo podría difuminarse cada vez más.

En la actualidad, enormes volúmenes de video sin etiquetar siguen prácticamente sin utilizarse. El estudio indica que estos datos podrían integrarse en el entrenamiento de IA sin perjudicar el rendimiento lingüístico, lo que podría abrir la puerta a sistemas multimodales mucho más potentes en el futuro.

Senior AI Research Analyst
Es investigador y analista senior con base en España. Su trabajo se centra en el estudio de modelos tecnológicos a gran escala, su integración en infraestructuras empresariales y las implicaciones económicas y sociales de su adopción.