Datos sintéticos impulsan a X-Coder: un modelo de IA de 7B supera a rivales de 14B en programación

Categoría: Análisis

Senior AI Research Analyst

24 Enero 2026

Listen On

Investigadores de la Universidad de Tsinghua y Microsoft han desarrollado un método para entrenar modelos de IA en tareas avanzadas de programación utilizando exclusivamente datos sintéticos. Su modelo de 7.000 millones de parámetros, X-Coder, supera a competidores del doble de tamaño en el benchmark LiveCodeBench.

Los experimentos demuestran una clara relación entre el tamaño del conjunto de datos y el rendimiento en los benchmarks. Con 32.000 tareas sintéticas de programación, el modelo alcanza una tasa de acierto del 43,7%. Con 64.000 tareas, el rendimiento sube al 51,3%, con 128.000 tareas al 57,2%, y con 192.000 tareas llega al 62,7%.

Los investigadores demostraron que el rendimiento del modelo aumenta de forma constante con el número de tareas sintéticas. | Imagen: Wu et al.

Con el mismo presupuesto computacional, la diversidad de las tareas resulta más importante que el número de soluciones por tarea. Un conjunto de datos con 64.000 tareas distintas y una solución por cada una obtiene mejores resultados que conjuntos con 16.000 tareas y cuatro soluciones o 8.000 tareas con ocho soluciones.

Tareas construidas a partir de componentes modulares

El desarrollo de modelos de código de alto rendimiento suele verse limitado por la escasez de datos de entrenamiento. Las colecciones existentes de tareas de programación competitiva se reutilizan en exceso y ya no son suficientes para impulsar nuevas mejoras. Los enfoques sintéticos anteriores solían reescribir problemas existentes, lo que restringía su diversidad.

El sistema genera datos de entrenamiento de alta calidad en cuatro pasos. Tras la extracción y evolución de características de programación (1), se crean tareas para las que se generan soluciones (2) y casos de prueba (3) mediante LLM. Una validación en dos etapas (“verificación dual”) garantiza la corrección de los datos sintéticos. | Imagen: Wu et al.

La nueva canalización, denominada SynthSmith, genera tareas, soluciones y casos de prueba completamente desde cero. El proceso comienza con la extracción de características algorítmicas —incluidos algoritmos, estructuras de datos y técnicas de optimización— a partir de 10.000 ejemplos de código existentes. Mediante un proceso evolutivo, el sistema amplía este conjunto de características de 27.400 a casi 177.000 componentes algorítmicos, que luego se recombinan para crear nuevas tareas de programación en distintos estilos.

El control de calidad se realiza en dos etapas. Primero, una votación por mayoría entre múltiples soluciones candidatas determina los resultados correctos. Luego, la mejor solución se valida en un conjunto de prueba independiente para evitar el sobreajuste.

El modelo 7B supera a competidores de 14B

El modelo X-Coder 7B alcanza una tasa media de acierto del 62,9% en LiveCodeBench v5 y del 55,8% en v6, superando a modelos más grandes como DeepCoder-14B-Preview y AReal-boba²-14B, ambos basados en modelos base más potentes.

X-Coder se apoya de forma sistemática en datos sintéticos para el fine-tuning (SFT) y el aprendizaje por refuerzo (RL). En las pruebas de LiveCodeBench (v5 y v6), el modelo 7B supera claramente a competidores más grandes y consolidados como Mimo-7B y Qwen3-8B. | Imagen: Wu et al.

En comparación con el mayor conjunto de datos público para razonamiento en código, SynthSmith ofrece una mejora de 6,7 puntos, atribuida a tareas más complejas que requieren cadenas de razonamiento más largas. La longitud media del razonamiento alcanza los 17.700 tokens, frente a los 8.000 tokens del conjunto de referencia.

Una fase adicional de aprendizaje por refuerzo incrementa el rendimiento en 4,6 puntos porcentuales. El entrenamiento sigue siendo eficaz incluso con casos de prueba sintéticos que presentan una tasa de error cercana al 5%. Según el artículo, el entrenamiento requirió 128 GPUs H20 durante 220 horas para el ajuste supervisado y 32 GPUs H200 durante siete días para el aprendizaje por refuerzo.

Menor contaminación de los benchmarks

Una ventaja clave del enfoque sintético se observa al comparar distintas versiones de los benchmarks. El modelo de referencia Qwen3-8B cayó de 88,1 a 57,5 entre versiones antiguas y nuevas de LiveCodeBench. En cambio, X-Coder descendió de 78,2 a 62,9, una caída menor de 17,2 puntos, lo que sugiere una menor memorización de las tareas.

Dado que X-Coder se entrenó exclusivamente con datos sintéticos, no pudo memorizar benchmarks anteriores. Los investigadores planean publicar los pesos del modelo, y el código de procesamiento de datos ya está disponible en GitHub.

El interés por los datos sintéticos sigue creciendo en la industria de la IA. El año pasado, la startup Datology AI presentó BeyondWeb, un marco que reescribe documentos web para generar datos de entrenamiento más densos, mientras que Nvidia recurre cada vez más a datos sintéticos en robótica para compensar la escasez de datos reales, convirtiendo así un problema de datos en un problema de cómputo.

Conclusión:

Los resultados demuestran que los datos sintéticos pueden igualar e incluso superar los enfoques tradicionales de entrenamiento para modelos avanzados de programación. Esto abre la puerta a un desarrollo de IA más rápido, económico y escalable, sin depender de enormes conjuntos de datos reales. En AI Wire Media seguiremos de cerca cómo el entrenamiento sintético está transformando el futuro de la investigación y la implementación de la inteligencia artificial.

Javier Morales

Senior AI Research Analyst

Javier Morales es investigador y analista senior en inteligencia artificial con base en España. Su trabajo se centra en el estudio de modelos de IA a gran escala, su integración en infraestructuras empresariales y las implicaciones económicas y sociales de su adopción. Ha analizado en profundidad las estrategias de las principales compañías tecnológicas, así como el impacto de la inteligencia artificial en productividad, gobernanza digital y comportamiento de los usuarios. Sus publicaciones se caracterizan por un enfoque analítico, basado en datos y orientado a la evaluación crítica de tecnologías emergentes.

Datos sintéticos impulsan a X-Coder: un modelo de IA de 7B supera a rivales de 14B en programación

Tareas construidas a partir de componentes modulares

El modelo 7B supera a competidores de 14B

Menor contaminación de los benchmarks

Podcast by Javier Morales

OpenAI busca alternativas a los chips de Nvidia por problemas de velocidad en la inferencia

Google Gemini lidera los juegos sociales de IA en la Game Arena de DeepMind