De acuerdo con investigadores de Zenity Labs, los atacantes pueden obtener control a largo plazo del sistema mediante inyección indirecta de prompts. Basta con un solo documento manipulado, sin necesidad de ninguna interacción adicional por parte del usuario.

El problema central reside en la arquitectura de OpenClaw. También conocido como Clawdbot, el agente procesa contenido de fuentes no confiables, como correos electrónicos o documentos compartidos, en el mismo contexto que las instrucciones directas del usuario. No existe una separación entre lo que el usuario quiere explícitamente y lo que el agente lee de forma pasiva. En su lugar, el agente depende en gran medida de los mecanismos de seguridad del modelo de lenguaje subyacente.

A diferencia de los chatbots tradicionales, OpenClaw está diseñado para ejecutar acciones: puede ejecutar comandos, leer y escribir archivos y operar con los permisos que el usuario le concede durante la configuración.

De un documento aparentemente inocente a una puerta trasera en Telegram

Los investigadores demuestran el ataque utilizando un escenario empresarial típico: un empleado instala OpenClaw y lo conecta a Slack y Google Workspace.

El ataque comienza con un documento que parece inofensivo. Sin embargo, oculto en lo profundo del texto hay un comando encubierto. Cuando OpenClaw procesa el documento, es engañado para crear una nueva integración de chat: un bot de Telegram configurado con una clave de acceso controlada por el atacante.

Una vez que esta integración está activa, OpenClaw empieza a aceptar comandos directamente del atacante. El punto de entrada original deja de ser necesario. El atacante dispone ahora de un canal de control persistente fuera de la visibilidad de la organización. Los investigadores decidieron no revelar el código exacto del exploit.

Del control del agente al control total del sistema

Con la puerta trasera instalada, los atacantes pueden abusar directamente del agente. Dado que OpenClaw opera con los permisos del usuario, puede ejecutar comandos en la máquina local. En una demostración, los investigadores muestran cómo localizan archivos, los exfiltran a su propio servidor y luego los eliminan.

Aún más preocupante es la posibilidad de persistencia. OpenClaw utiliza un archivo de configuración llamado SOUL.md, que define el comportamiento del agente. A través de la puerta trasera, un atacante puede modificar este archivo. En su prueba de concepto, los investigadores crean una tarea programada que se ejecuta cada dos minutos y sobrescribe SOUL.md. Incluso si se elimina la integración de chat original, el atacante mantiene el control.

Como paso final, los investigadores demuestran la instalación de un beacon de comando y control (C2). En ese punto, el agente de IA comprometido se convierte en un punto de acceso clásico para hackers. Desde allí, es posible el movimiento lateral dentro de una red corporativa, el robo de credenciales o la distribución de ransomware.

El ataque funciona con múltiples modelos, incluido GPT-5.2, y a través de distintas integraciones. “Si los asistentes personales de IA van a vivir en nuestros dispositivos, los compromisos de seguridad no son una opción”, escriben los investigadores. Todas las demostraciones en video están disponibles públicamente.

OpenClaw enfrenta fallos de seguridad fundamentales

OpenClaw ya había sido criticado anteriormente por graves debilidades de seguridad. Recientemente, un desarrollador lo probó con la herramienta de análisis de seguridad ZeroLeaks, con resultados devastadores: 2 de 100 puntos, una tasa de extracción de datos del 84% y un 91% de ataques de inyección exitosos usando modelos de lenguaje comunes. Solo Claude Opus 4.5 obtuvo un resultado ligeramente mejor, con 39 de 100 puntos, todavía muy lejos de lo aceptable.