Amazon ha ampliado su familia de modelos fundacionales con Nova Sonic, desarrollado para habilitar conversaciones con voces más parecidas a las humanas a partir de las tecnologías de comprensión y generación de discurso.
Según ha explicado la compañía en su blog oficial, Nova Sonic es un nuevo modelo de IA generativa con el que Amazon busca simplificar el desarrollo de aplicaciones de voz. Para ello, ofrece una propuesta que unifica las capacidades de comprensión y generación.
«Esta unificación permite al modelo adaptar la respuesta de voz generada al contexto acústico y a la entrada hablada, lo que resulta en un diálogo más natural«, ha explicado Amazon. Es, además, capaz de comprender matices de las conversaciones, incluidas las pausas y vacilaciones. Es decir, el nuevo modelo ha llegado para facilitar la vida de los clientes, pues su propósito principal es simplificar la creación de aplicaciones de voz, como llamadas automatizadas de servicio al cliente y agentes de IA.
El sistema, integrado en Amazon Bedrock, tiene acceso a través de una nueva API de transmisión bidireccional y está destinado a industrias que incluyen viajes, educación, salud y entretenimiento.
Rohit Prasad, vicepresidente senior de Inteligencia General Artificial de la compañía, ha reafirmado el compromiso de mejorar la experiencia de los usuarios a través de tecnología activada por voz y destacó que el nuevo modelo permitirá que las interacciones sean más precisas, naturales y atractivas.
Además, el Nova Sonic de Amazon es capaz de reconocer diferentes estilos de habla. La compañía ha subrayado que el modelo de IA también puede entender cuándo un usuario habla mal, hace una pausa mientras habla o murmura. A partir de ahora, solo admite el idioma inglés. Sin embargo, Amazon añadirá soporte para más idiomas pronto. El modelo tiene una ventana de contexto de 32.000 tokens para audio, con una ventana adicional para manejar conversaciones más largas.
De igual modo, Nova Sonic demuestra un sólido rendimiento en la calidad general de la conversación en comparación con otros modelos de la industria, que en este momento incluyen unos pocos seleccionados con capacidades similares de habla conversacional en tiempo real, como GPT-4o (en tiempo real) de OpenAI y Google Gemini Flash 2.0 (disponible a través de la API experimental en vivo de Gemini).
Empresas como ASAPP, Education First y Stats Perform ya han comenzado a integrar Nova Sonic para mejorar el servicio al cliente, el aprendizaje de idiomas y el análisis de datos deportivos, respectivamente. Las compañías han aplaudido la precisión, baja latencia y facilidad de integración del modelo.
Nova Reel 1.1: nuevo modelo de generación de videos de hasta 2 minutos
Por otro lado, Amazon también ha lanzado el nuevo modelo de Nova Reel 1.1 que ahora puede generar videos más largos basados en entradas de texto. Sucesor del modelo Nova Reel del año pasado, el nuevo modelo puede generar tomas de seis segundos de duración, y un solo video puede tener 20 clips de este tipo unidos para crear un video de 120 segundos de duración. También está disponible para desarrolladores y usuarios generales a través de la plataforma Amazon Bedrock.
Según la compañía, este modelo mejora la productividad creativa, a la vez que ayuda a reducir el tiempo y el costo de la producción de video mediante la IA generativa, y se puede utilizar para crear vídeos atractivos para las campañas de marketing, diseños de productos y contenido de redes sociales con mayor eficiencia y control creativo.