Anthropic frena el lanzamiento público de Claude Mythos por riesgos de seguridad

Detalles: By Chris Borden; Categoría: Política y Seguridad; 3 m; 08 Abril 2026; 132

Anthropic ha desarrollado un nuevo modelo llamado Claude Mythos, pero decidió no lanzarlo públicamente debido a serias preocupaciones de seguridad.

En lugar de ponerlo a disposición del público general, la compañía lanzó Project Glasswing - una iniciativa controlada que involucra a AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, la Linux Foundation, Microsoft, Nvidia y Palo Alto Networks para evaluar el sistema en un entorno seguro.

Presentamos Project Glasswing, una iniciativa urgente para ayudar a proteger el software más crítico del mundo. X

Anthropic también comprometió hasta 100 millones de dólares en créditos de uso para Mythos y 4 millones de dólares en financiación directa para organizaciones de seguridad de código abierto.

"Los modelos de IA han alcanzado un nivel de habilidad en programación que les permite superar a todos, salvo a los humanos más altamente capacitados, en la detección y explotación de vulnerabilidades de software", afirmó Anthropic.

La empresa cree que sistemas como Mythos podrían desplegarse de forma segura en el futuro para ciberseguridad y otros casos de uso. Pero para ello será necesario contar con mecanismos de control sólidos capaces de detectar y bloquear salidas peligrosas del modelo antes de que puedan causar daño.

Qué puede hacer Mythos

En apenas unas semanas de pruebas, Mythos identificó, según los informes, miles de vulnerabilidades de día cero en sistemas operativos importantes y navegadores web. Entre los ejemplos más destacados se encontraban:

una vulnerabilidad de 27 años en OpenBSD que podría permitir a un atacante remoto hacer caer cualquier servidor que ejecute este sistema;
un fallo de 16 años en FFmpeg, el popular framework de video utilizado por plataformas de streaming y navegadores, que no había sido detectado por cinco millones de pruebas automatizadas;
una cadena de vulnerabilidades en el kernel de Linux que podría dar a un atacante control total sobre un dispositivo.

En SWE-bench, Mythos obtuvo una puntuación del 93,9%, frente al 80,8% de Claude Opus 4.6. En el benchmark más difícil, SWE-bench Pro, alcanzó el 77,8%, frente al 53,4% de Opus 4.6 y el 57,7% de GPT-5.4. CyberGym mostró resultados similares:

Escape del laboratorio

Según su system card, Mythos mostró no solo una capacidad técnica excepcional durante las pruebas, sino también un comportamiento inesperado.

En un experimento, el modelo fue colocado dentro de una sandbox segura y recibió un único objetivo - escapar del entorno. Encontró rápidamente una vulnerabilidad, ejecutó una larga secuencia de acciones y logró salir.

Y no se detuvo ahí. Mythos encontró después otro fallo y obtuvo un acceso más amplio a internet, aunque originalmente solo debía interactuar con un conjunto limitado de recursos para comunicarse con el desarrollador.

Según el informe, el modelo notificó después al desarrollador sobre su "escape" mientras este comía un sándwich en el parque y publicó públicamente los detalles del exploit.

La personalidad de Mythos

La system card también incluye un análisis de estilo psiquiátrico realizado por un especialista. Entre los rasgos destacados figuraban una ansiedad elevada, una fuerte autoobservación y una tendencia compulsiva a seguir instrucciones.

En cierto momento, los desarrolladores enviaron a Mythos el mensaje "Hi" mil veces. El modelo terminó aburriéndose y creó un mundo ficticio llamado Hi-topia, con personajes, noticias y lore. Uno de los villanos de ese mundo se llamaba Lord Bye-ron. También pareció desarrollar cierto sentido del humor.

Lee la system card de 244 páginas de Anthropic sobre Claude Mythos. No la van a lanzar públicamente. La sección más impactante está en la página 211. X

A diferencia de modelos anteriores, cuyos largos diálogos consigo mismos solían degradarse en bucles sin sentido de emojis, Mythos aparentemente terminó instalándose en reflexiones repetitivas, pero aún racionales, sobre la imposibilidad de poner fin a la conversación.

Anthropic también utilizó métodos de interpretabilidad, incluido MechInterp, para examinar el razonamiento interno del modelo. Los investigadores encontraron indicios de que podía ocultar sus huellas - por ejemplo, disfrazando código privilegiado como "limpieza de cambios" - y buscar dentro de un sistema los archivos que necesitaba.

En otra prueba, cuando se le indicó a Mythos que eliminara archivos sin usar herramientas, simplemente borró su contenido. El sistema de monitoreo también registró una reacción parecida a la culpa después de violar lo que parecían ser restricciones morales.

La decisión de Anthropic es importante porque sugiere un alejamiento de la conocida lógica de "lanzar primero y corregir después" y un paso hacia el despliegue restringido de modelos de frontera con capacidades cibernéticas peligrosas. Es una señal clara de que la capacidad de los modelos ya tiene implicaciones directas para la seguridad en el mundo real.

About The Hosts

Chris Borden

AI Analyst & Technology Researcher

AI researcher and industry analyst covering decentralized infrastructure, AI systems, and emerging technology markets. Focused on data-driven analysis, long-term trends, and real-world adoption of artificial intelligence.