La empresa estadounidense Figure AI ha presentado un sistema que controla un robot humanoide mediante una sola red neuronal. Una demostración de cuatro minutos en una cocina pretende mostrar sus capacidades.

La combinación de locomoción y manipulación ha sido durante décadas uno de los desafíos más persistentes de la robótica. Cuando un robot levanta un objeto, su equilibrio cambia; cuando da un paso, varía su alcance. Brazos y piernas se influyen continuamente entre sí.

Los sistemas tradicionales evitan esta complejidad dividiendo la locomoción y la manipulación en controladores separados: caminar, detenerse, estabilizarse, agarrar, volver a caminar. Las demostraciones actuales de humanoides —como saltar o bailar— suelen planificarse de forma offline. Si un objeto se desplaza o el contacto ocurre de manera distinta a la esperada, el comportamiento suele colapsar, señala Figure AI.

Una sola red neuronal para el control de todo el cuerpo

Helix 02 pretende resolver este problema utilizando un único sistema de aprendizaje que controla simultáneamente todo el cuerpo. Amplía el modelo Helix presentado el año pasado, que solo gestionaba la parte superior, para incluir piernas, torso, cabeza, brazos y dedos individuales.

En la demostración, Figure AI muestra un robot que vacía y vuelve a cargar un lavavajillas, realizando 61 acciones consecutivas durante cuatro minutos sin intervención humana. El robot cierra un cajón con la cadera y levanta la puerta del lavavajillas con el pie cuando tiene las manos ocupadas.

La empresa describe esto como la tarea autónoma más larga y compleja jamás realizada por un robot humanoide. Sin embargo, no se proporcionan datos sobre tasas de error ni sobre cuántos intentos fueron necesarios para obtener el vídeo. Tampoco está claro cómo se comportaría el robot en una cocina modificada. Además, la vajilla utilizada es de plástico. Aun así, si las acciones se realizaron realmente de forma autónoma, como afirma la compañía, se trata de un avance significativo frente a demostraciones anteriores.

Arquitectura de tres capas sustituye al código escrito a mano

La base técnica es una arquitectura de tres capas. El Sistema 0 —una red neuronal con 10 millones de parámetros— fue entrenado con más de 1.000 horas de datos de movimiento humano y opera a 1 kHz para correcciones rápidas. Según Figure AI, sustituye 109.504 líneas de código C++ escritas manualmente que antes se usaban para el equilibrio y la coordinación.

El entrenamiento se realizó en simulación utilizando más de 200.000 entornos paralelos, un enfoque estándar para la transferencia de sim a real. Por encima se encuentra el Sistema 1, que conecta todos los sensores con todas las articulaciones y opera a 200 Hz. El Sistema 2 forma la capa superior, encargada de la comprensión del lenguaje y la planificación de tareas.

Nuevos sensores permiten una manipulación más precisa

El hardware se basa en el robot Figure 03, presentado recientemente. Las cámaras en las palmas proporcionan visión cuando los objetos quedan fuera del campo de la cámara principal. Los sensores táctiles en las yemas de los dedos detectan fuerzas tan pequeñas como tres gramos.

Otras demostraciones incluyen desenroscar la tapa de una botella, extraer una sola pastilla de un blíster, dosificar 5 ml con una jeringa y clasificar piezas metálicas, que según la empresa proceden de su propia planta de fabricación.

Figure AI califica sus resultados como “en fase temprana” y aspira a desplegar robots humanoides tanto en hogares como en entornos laborales. El sistema Helix original fue presentado el año pasado.

Conclusión:

Aunque Helix 02 sigue siendo un sistema en etapa inicial, el enfoque de Figure AI representa un cambio significativo hacia el control unificado e integral de robots humanoides. Si la tecnología demuestra ser robusta fuera de entornos controlados, podría acelerar de forma notable la adopción de robots versátiles en aplicaciones domésticas e industriales reales.