La empresa de ciberseguridad OpenZeppelin ha auditado el nuevo benchmark de IA de OpenAI, EVMbench, e identificó fallos metodológicos y problemas de contaminación de datos.

OpenAI lanzó EVMbench a mediados de febrero en colaboración con el fondo de inversión Paradigm para evaluar la capacidad de los agentes de IA de detectar, corregir y explotar vulnerabilidades en contratos inteligentes.

OpenZeppelin acogió positivamente la iniciativa, pero decidió revisarla aplicando los mismos estándares que utiliza para los protocolos que protege, incluidos Aave, Lido y Uniswap.

Principales deficiencias

El principal problema está relacionado con la contaminación de los datos de entrenamiento. EVMbench se basa en un conjunto de 120 vulnerabilidades identificadas durante auditorías realizadas en 2024 y 2025.

Sin embargo, los principales modelos evaluados en el benchmark tienen un corte de conocimiento hasta agosto de 2025. Esto significa que podrían “recordar” información sobre esas vulnerabilidades a partir de sus datos de entrenamiento. Incluso con el acceso a internet desactivado, esto pone en duda la validez del experimento, ya que no está claro si la IA es capaz de detectar amenazas realmente nuevas.

OpenZeppelin también señaló errores fácticos en el conjunto de datos de EVMbench. Al menos cuatro vulnerabilidades clasificadas como de “alto riesgo” resultaron ser no explotables. A pesar de ello, los agentes de IA recibieron la puntuación completa por supuestamente identificarlas correctamente.

“No se trata de desacuerdos subjetivos sobre la gravedad; son casos en los que el ataque descrito simplemente no funciona”, afirmaron los expertos.

OpenZeppelin reconoció que la IA desempeñará un papel clave en el futuro de la seguridad en blockchain. No obstante, la empresa advirtió que la rapidez en la adopción no debe ir en detrimento de la calidad de los datos y de los estándares de prueba.

“La cuestión no es si la IA transformará la seguridad de los contratos inteligentes — lo hará. La cuestión es si los benchmarks y los conjuntos de datos que utilizamos para desarrollar estas herramientas cumplirán los mismos estándares que los contratos que están destinados a proteger”, concluyó OpenZeppelin.