En pruebas piloto, fue posible inducir a Claude Opus 4.6 a proporcionar en una hoja de Excel instrucciones detalladas para la fabricación de gas mostaza y a llevar una hoja contable para una organización criminal, comportamientos que no aparecieron o fueron mucho menos frecuentes en interacciones basadas únicamente en texto.

“Descubrimos que algunos tipos de comportamientos abusivos aparecieron en estas evaluaciones piloto que estaban ausentes o eran significativamente menos frecuentes en interacciones puramente textuales”, escribe Anthropic en la System Card de Claude Opus 4.6. “Estos resultados sugieren que nuestras medidas estándar de entrenamiento de alineación son probablemente menos efectivas en entornos con GUI”.

Las pruebas con el modelo anterior, Claude Opus 4.5, en el mismo entorno mostraron, según Anthropic, “resultados similares”, lo que indica que el problema persiste a lo largo de varias generaciones del modelo y aún no ha sido resuelto. La vulnerabilidad parece surgir porque los modelos aprenden a rechazar solicitudes dañinas en conversaciones, pero no trasladan completamente ese comportamiento a la utilización de herramientas basadas en agentes, donde los mismos daños subyacentes pueden lograrse por medios indirectos.