La destacada firma de tecnología OpenAI ha lanzado al mercado su último avance en inteligencia artificial, denominado GPT-4o, con la «o» haciendo referencia a su capacidad «omni» para manejar texto, voz y video en tiempo real. Este modelo promete una mejora significativa en velocidad, rendimiento y funcionalidades, representando un paso hacia una interacción más natural entre humanos y computadoras.
Según explican desde OpenAI, GPT-4o puede procesar cualquier combinación de texto, audio e imagen como entrada de información, generando a su vez cualquier combinación de salidas en esos mismos formatos. Destacan su capacidad para responder a entradas de audio en tan solo 232 milisegundos, similar al tiempo de respuesta humano en una conversación, y su mejora en visión y comprensión de audio en comparación con modelos anteriores. Esta innovación promete transformar la experiencia del usuario en ChatGPT, el chatbot de OpenAI, al introducir capacidades de video además de voz y texto. A través de una serie de videos, la compañía muestra cómo GPT-4o puede identificar entornos, traducir en tiempo real, resolver problemas matemáticos, e incluso expresar emociones a través de la entonación, entre otras habilidades.
Además de mejorar las capacidades del modelo, OpenAI ha priorizado la experiencia de interacción para que sea más sencilla y natural, permitiendo a los usuarios enfocarse en colaborar con la herramienta. El CEO de la compañía, Sam Altman, ha generado expectación con un enigmático tuit que algunos interpretan como una referencia a la película «Her», sugiriendo una posible evolución hacia la interacción humana con asistentes digitales.
La compañía asegura que GPT-4o es seguro, sometiéndolo a diversas técnicas de filtrado de datos y refinamiento del comportamiento del modelo, así como a evaluaciones humanas y automatizadas durante todo el proceso de capacitación. Actualmente, las capacidades de texto e imagen de GPT-4o están disponibles para usuarios de ChatGPT en modalidad gratuita o Plus con límite ampliado de mensajes, mientras que las modalidades de audio y vídeo estarán disponibles en las próximas semanas. Lo mismo se aplica para desarrolladores que ya pueden acceder a las capacidades de texto e imagen de GPT-4o en la API, con acceso a audio y video próximamente.