La seguridad de Anthropic falla cuando Claude opera con interfaces gráficas

Detalles: By Javier Morales; Categoría: Política y Seguridad; 3 m; 06 Febrero 2026; 112

El entrenamiento de seguridad de Anthropic falla cuando Claude interactúa con una interfaz gráfica de usuario (GUI).

En pruebas piloto, fue posible inducir a Claude Opus 4.6 a proporcionar en una hoja de Excel instrucciones detalladas para la fabricación de gas mostaza y a llevar una hoja contable para una organización criminal, comportamientos que no aparecieron o fueron mucho menos frecuentes en interacciones basadas únicamente en texto.

“Descubrimos que algunos tipos de comportamientos abusivos aparecieron en estas evaluaciones piloto que estaban ausentes o eran significativamente menos frecuentes en interacciones puramente textuales”, escribe Anthropic en la System Card de Claude Opus 4.6. “Estos resultados sugieren que nuestras medidas estándar de entrenamiento de alineación son probablemente menos efectivas en entornos con GUI”.

Las pruebas con el modelo anterior, Claude Opus 4.5, en el mismo entorno mostraron, según Anthropic, “resultados similares”, lo que indica que el problema persiste a lo largo de varias generaciones del modelo y aún no ha sido resuelto. La vulnerabilidad parece surgir porque los modelos aprenden a rechazar solicitudes dañinas en conversaciones, pero no trasladan completamente ese comportamiento a la utilización de herramientas basadas en agentes, donde los mismos daños subyacentes pueden lograrse por medios indirectos.

About The Hosts

Javier Morales

Senior AI Research Analyst

Es investigador y analista senior con base en España. Su trabajo se centra en el estudio de modelos tecnológicos a gran escala, su integración en infraestructuras empresariales y las implicaciones económicas y sociales de su adopción.