Mistral AI lanza Voxtral Transcribe 2: reconocimiento de voz desde $0,003 por minuto

Detalles: By Javier Morales; Categoría: Modelos; 5 m; 05 Febrero 2026; 144

Mistral AI busca undercut a la competencia en precio en el reconocimiento de voz con Voxtral Transcribe 2. La segunda generación de sus modelos de conversión de voz a texto parte desde 0,003 dólares por minuto y, según Mistral, ofrece una mayor precisión que modelos como GPT-4o mini Transcribe, Gemini 2.5 Flash y Deepgram Nova. La familia de modelos incluye dos variantes: Voxtral Mini Transcribe V2, diseñada para procesar archivos de audio de gran tamaño, y Voxtral Realtime, orientada a aplicaciones en tiempo real con una latencia inferior a 200 milisegundos. Voxtral Realtime, que tiene un coste el doble de alto, utiliza una arquitectura de streaming dedicada que transcribe el audio a medida que llega, y está pensada para casos de uso como asistentes de voz, subtítulos en directo y análisis de centros de llamadas

Ambos nuevos modelos admiten 13 idiomas, incluidos alemán, inglés y chino. Entre las nuevas funciones se incluyen la diarización de hablantes, marcas de tiempo a nivel de palabra y la compatibilidad con grabaciones de hasta tres horas. Voxtral Realtime está disponible como open weights bajo la licencia Apache 2.0 en Hugging Face y también a través de API, mientras que Voxtral Mini Transcribe V2 solo está accesible mediante Le Chat, la API de Mistral y un playground. Mistral presentó la primera generación de Voxtral en julio de 2025

About The Hosts

Javier Morales

Senior AI Research Analyst

Es investigador y analista senior con base en España. Su trabajo se centra en el estudio de modelos tecnológicos a gran escala, su integración en infraestructuras empresariales y las implicaciones económicas y sociales de su adopción.