Google lanza Lyria 3: música con IA y voces dentro de Gemini
Google lanza Lyria 3, un generador de música con IA, dentro de la app Gemini. El modelo crea pistas de 30 segundos con voces.
Google lanza Lyria 3, un generador de música con IA, dentro de la app Gemini. El modelo crea pistas de 30 segundos con voces.
El equipo de investigación detrás de Molmo ha lanzado un agente web capaz de operar sitios utilizando únicamente capturas de pantalla. A pesar de su tamaño compacto, los modelos en algunos casos superan a sistemas propietarios más grandes.
Google ha presentado Lyria 3 Pro, su modelo de IA más avanzado para la generación musical. El sistema puede crear pistas de hasta tres minutos y, según Google, comprende mejor estructuras musicales como introducciones, estrofas, estribillos y puentes que Lyria 3, que la compañía presentó en febrero.
Xiaomi planea desarrollar agentes de IA capaces de controlar software de forma autónoma, comprar en navegadores y, en el futuro, operar robots. Para respaldar esa visión, el equipo interno MiMo de la compañía presentó tres modelos al mismo tiempo.
El equipo de superinteligencia de IA de Microsoft ha presentado su primer producto: el generador de imágenes MAI-Image-2, que se integrará en los productos de la compañía y también estará disponible vía API en el futuro.
OpenAI ha presentado dos nuevos modelos de IA: GPT-5.4 mini y GPT-5.4 nano, ambos optimizados específicamente para tareas que requieren una latencia ultrabaja en la generación de respuestas.
OpenAI ha lanzado GPT-5.4 y GPT-5.4 Pro apenas dos días después de presentar la versión 5.3 Instant.
OpenAI ha integrado el modelo GPT-5.3 Instant en ChatGPT, mejorando el tono, la adecuación contextual y la fluidez general del diálogo. Según los desarrolladores, esta actualización está diseñada para hacer que las conversaciones cotidianas con el chatbot sean más útiles y naturales.
Artificial Analysis ha publicado la versión 2.0 de su benchmark de reconocimiento de voz AA-WER, que mide la precisión de los modelos de transcripción de voz a texto. En la clasificación general, Scribe v2 de ElevenLabs ocupa el primer lugar con una tasa de error de palabras de solo 2,3%.
El motor de búsqueda con IA Perplexity ha presentado dos nuevos modelos de embeddings de texto que buscan igualar o superar las soluciones de Google y Alibaba utilizando solo una fracción del consumo habitual de memoria. Ambos modelos son de código abierto.