OpenAI crea un agente de IA para automatizar tareas

OpenAI ha lanzado un agente capaz de realizar tareas de varios pasos de forma autónoma, llamado Operator. Este agente de inteligencia artificial de uso general puede tomar el control del navegador web y realizar ciertas acciones de forma independiente. Entre las funciones que pueden realizar se encuentran hacer una reserva de hotel o realizar compras online.

Por ahora, el agente se había estado probando en fase beta y pasará a estar disponible para los primeros usuarios de Estados Unidos que tienen el plan PRO de ChatGPT. De esta forma, la compañía podrá seguir experimentando con ella y mejorándola para ponerla a disposición de otros usuarios en el futuro que tienen otros planes como el Plus, Team o Enterprise.

La compañía ha adelantado que «[Operator] estará pronto en otros países», según comentó Sam Altman, director ejecutivo de OpenAI, durante una transmisión en vivo el pasado jueves. Sin embargo, Altman señaló que su llegada a Europa podría demorarse: «Lamentablemente, en Europa tardará un poco». Por el momento, no se ha anunciado una fecha específica para el lanzamiento en la región, posiblemente debido a las crecientes restricciones impuestas por las regulaciones de la Unión Europea en materia de protección de datos e inteligencia artificial.

¿Cómo funciona Operator?

Operator se basa en un nuevo modelo llamado Computer-Using Agent (CUA), un modelo que combina las capacidades de visión de GPT-4o con el razonamiento avanzado a través del aprendizaje por refuerzo, es decir, es un modelo que tiene la capacidad de interactuar con interfaces gráficas de usuarios como botones, menús y campos de texto como lo hacen las personas. De esta manera, tiene la flexibilidad necesaria para realizar tareas digitales sin utilizar API específicas del sistema operativo de la web con la que interactúe.

Este modelo, al combinar la percepción avanzada de la interfaz gráfica de usuario con la resolución estructurada de problemas, va dividiendo las tareas en varios pasos y puede aprovechar sus capacidades de razonamiento para autocorregirse. Además, en caso de que no pueda resolver los problemas con los que se encuentre «simplemente devuelve el control al usuario, lo que garantiza una experiencia fluida y colaborativa».

Primeras pruebas

El objetivo de Operator es optimizar las tareas de los usuarios y acercar los beneficios de los agentes a empresas que buscan ofrecer experiencias innovadoras al cliente y aumentar sus tasas de conversión. Según OpenAI, «estamos colaborando con empresas como DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber y otras, para garantizar que Operator aborde necesidades reales respetando las normativas vigentes».

“Operator de OpenAI es un avance tecnológico que hace que procesos como pedir alimentos sean increíblemente fáciles”.
Daniel Danker, director de productos de Instacart

En el comunicado donde se presentó Operator, OpenAI destacó los resultados de las pruebas iniciales realizadas con diversas empresas. Estas demostraron el potencial de la herramienta, logrando un 38,1% de éxito en OSWorld para tareas de uso completo del ordenador, un 58,1% en WebArena y un 87% en WebVoyager para tareas basadas en la web. «Estos resultados ponen de manifiesto la capacidad de Operator para navegar y operar en entornos variados utilizando un único espacio de acción general», afirmaron.

¿Qué aplicaciones tiene?

Utilizar Operator es similar a ChatGPT, tan solo tienes que describirle la tarea que quieres que realice el operador y este se pondra a ejecutarlas. Sin embargo, solicitará la toma de control del usuario cuando las tareas requieran inicio de sesión, detalles de pago o resolución de CAPTCHA. El usuario también podrá tomar el control cuando crea que es necesario.

Los usuarios pueden personalizar sus flujos de trabajo en Operator añadiendo instrucciones personalizadas, ya sea para todos los sitios o para sitios específicos, como por ejemplo, establecer preferencias para aerolíneas en Booking.com. Operator permite a los usuarios guardar avisos para acceder rápidamente a ellos en la página de inicio, lo que resulta ideal para tareas repetidas, como reponer alimentos en Instacart. De forma similar al uso de varias pestañas en un navegador, los usuarios pueden hacer que Operator ejecute varias tareas simultáneamente creando nuevas conversaciones, como pedir una taza personalizada en Etsy mientras se reserva un camping en Hipcamp.

Aunque, no podemos olvidar que por ahora es una herramienta en desarrollo y tiene ciertas limitaciones como, explican desde OpenAI, «crear presentaciones de diapositivas detalladas, administrar sistemas de calendario complejos o interactuar con interfaces web altamente personalizadas o no estándar», explica OpenAI. Entre estas tareas se encuentran, por ejemplo, realizar transacciones financieras, enviar correos electrónicos o eliminar un evento del calendario

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

ÚLTIMOS POSTS

ÚLTIMOS POSTS

PUEDE INTERESARTE

¿CONECTAMOS?

POSTS MÁS COMENTADOS

Scroll al inicio
Email:*
Nombre:*
Apellidos:*
Empresa:*
Cargo:
Sector:
Teléfono:
Dirección postal:

Rellenar si se quiere recibir la revista física.
Acepto recibir la newsletter y comunicaciones de Ecommerce News conforme a la Política de Privacidad:
Acepto recibir comunicaciones comerciales de terceros: