OpenClaw: investigadores revelan una vulnerabilidad crítica que permite tomar control total del sistema

Detalles: By Javier Morales; Categoría: Política y Seguridad; 3 d; 27

El popular agente de IA de código abierto OpenClaw puede ser comprometido por completo mediante documentos manipulados de forma maliciosa, lo que permite a los atacantes instalar una puerta trasera persistente y tomar el control del ordenador del usuario, según demostraron investigadores de seguridad.

De acuerdo con investigadores de Zenity Labs, los atacantes pueden obtener control a largo plazo del sistema mediante inyección indirecta de prompts. Basta con un solo documento manipulado, sin necesidad de ninguna interacción adicional por parte del usuario.

El problema central reside en la arquitectura de OpenClaw. También conocido como Clawdbot, el agente procesa contenido de fuentes no confiables, como correos electrónicos o documentos compartidos, en el mismo contexto que las instrucciones directas del usuario. No existe una separación entre lo que el usuario quiere explícitamente y lo que el agente lee de forma pasiva. En su lugar, el agente depende en gran medida de los mecanismos de seguridad del modelo de lenguaje subyacente.

A diferencia de los chatbots tradicionales, OpenClaw está diseñado para ejecutar acciones: puede ejecutar comandos, leer y escribir archivos y operar con los permisos que el usuario le concede durante la configuración.

De un documento aparentemente inocente a una puerta trasera en Telegram

Los investigadores demuestran el ataque utilizando un escenario empresarial típico: un empleado instala OpenClaw y lo conecta a Slack y Google Workspace.

El ataque comienza con un documento que parece inofensivo. Sin embargo, oculto en lo profundo del texto hay un comando encubierto. Cuando OpenClaw procesa el documento, es engañado para crear una nueva integración de chat: un bot de Telegram configurado con una clave de acceso controlada por el atacante.

Una vez que esta integración está activa, OpenClaw empieza a aceptar comandos directamente del atacante. El punto de entrada original deja de ser necesario. El atacante dispone ahora de un canal de control persistente fuera de la visibilidad de la organización. Los investigadores decidieron no revelar el código exacto del exploit.

Del control del agente al control total del sistema

Con la puerta trasera instalada, los atacantes pueden abusar directamente del agente. Dado que OpenClaw opera con los permisos del usuario, puede ejecutar comandos en la máquina local. En una demostración, los investigadores muestran cómo localizan archivos, los exfiltran a su propio servidor y luego los eliminan.

Aún más preocupante es la posibilidad de persistencia. OpenClaw utiliza un archivo de configuración llamado SOUL.md, que define el comportamiento del agente. A través de la puerta trasera, un atacante puede modificar este archivo. En su prueba de concepto, los investigadores crean una tarea programada que se ejecuta cada dos minutos y sobrescribe SOUL.md. Incluso si se elimina la integración de chat original, el atacante mantiene el control.

Como paso final, los investigadores demuestran la instalación de un beacon de comando y control (C2). En ese punto, el agente de IA comprometido se convierte en un punto de acceso clásico para hackers. Desde allí, es posible el movimiento lateral dentro de una red corporativa, el robo de credenciales o la distribución de ransomware.

El ataque funciona con múltiples modelos, incluido GPT-5.2, y a través de distintas integraciones. “Si los asistentes personales de IA van a vivir en nuestros dispositivos, los compromisos de seguridad no son una opción”, escriben los investigadores. Todas las demostraciones en video están disponibles públicamente.

OpenClaw enfrenta fallos de seguridad fundamentales

OpenClaw ya había sido criticado anteriormente por graves debilidades de seguridad. Recientemente, un desarrollador lo probó con la herramienta de análisis de seguridad ZeroLeaks, con resultados devastadores: 2 de 100 puntos, una tasa de extracción de datos del 84% y un 91% de ataques de inyección exitosos usando modelos de lenguaje comunes. Solo Claude Opus 4.5 obtuvo un resultado ligeramente mejor, con 39 de 100 puntos, todavía muy lejos de lo aceptable.

About The Hosts

Javier Morales

Senior AI Research Analyst

Javier Morales es investigador y analista senior en inteligencia artificial con base en España. Su trabajo se centra en el estudio de modelos de IA a gran escala, su integración en infraestructuras empresariales y las implicaciones económicas y sociales de su adopción. Ha analizado en profundidad las estrategias de las principales compañías tecnológicas, así como el impacto de la inteligencia artificial en productividad, gobernanza digital y comportamiento de los usuarios. Sus publicaciones se caracterizan por un enfoque analítico, basado en datos y orientado a la evaluación crítica de tecnologías emergentes.