Mistral AI busca undercut a la competencia en precio en el reconocimiento de voz con Voxtral Transcribe 2. La segunda generación de sus modelos de conversión de voz a texto parte desde 0,003 dólares por minuto y, según Mistral, ofrece una mayor precisión que modelos como GPT-4o mini Transcribe, Gemini 2.5 Flash y Deepgram Nova. La familia de modelos incluye dos variantes: Voxtral Mini Transcribe V2, diseñada para procesar archivos de audio de gran tamaño, y Voxtral Realtime, orientada a aplicaciones en tiempo real con una latencia inferior a 200 milisegundos. Voxtral Realtime, que tiene un coste el doble de alto, utiliza una arquitectura de streaming dedicada que transcribe el audio a medida que llega, y está pensada para casos de uso como asistentes de voz, subtítulos en directo y análisis de centros de llamadas
Ambos nuevos modelos admiten 13 idiomas, incluidos alemán, inglés y chino. Entre las nuevas funciones se incluyen la diarización de hablantes, marcas de tiempo a nivel de palabra y la compatibilidad con grabaciones de hasta tres horas. Voxtral Realtime está disponible como open weights bajo la licencia Apache 2.0 en Hugging Face y también a través de API, mientras que Voxtral Mini Transcribe V2 solo está accesible mediante Le Chat, la API de Mistral y un playground. Mistral presentó la primera generación de Voxtral en julio de 2025
Senior AI Research Analyst
Javier Morales es investigador y analista senior en inteligencia artificial con base en España. Su trabajo se centra en el estudio de modelos de IA a gran escala, su integración en infraestructuras empresariales y las implicaciones económicas y sociales de su adopción. Ha analizado en profundidad las estrategias de las principales compañías tecnológicas, así como el impacto de la inteligencia artificial en productividad, gobernanza digital y comportamiento de los usuarios. Sus publicaciones se caracterizan por un enfoque analítico, basado en datos y orientado a la evaluación crítica de tecnologías emergentes.