OpenAI ha lanzado un agente capaz de realizar tareas de varios pasos de forma autónoma, llamado Operator. Este agente de inteligencia artificial de uso general puede tomar el control del navegador web y realizar ciertas acciones de forma independiente. Entre las funciones que pueden realizar se encuentran hacer una reserva de hotel o realizar compras online.
Por ahora, el agente se había estado probando en fase beta y pasará a estar disponible para los primeros usuarios de Estados Unidos que tienen el plan PRO de ChatGPT. De esta forma, la compañía podrá seguir experimentando con ella y mejorándola para ponerla a disposición de otros usuarios en el futuro que tienen otros planes como el Plus, Team o Enterprise.
La compañía ha adelantado que «[Operator] estará pronto en otros países», según comentó Sam Altman, director ejecutivo de OpenAI, durante una transmisión en vivo el pasado jueves. Sin embargo, Altman señaló que su llegada a Europa podría demorarse: «Lamentablemente, en Europa tardará un poco». Por el momento, no se ha anunciado una fecha específica para el lanzamiento en la región, posiblemente debido a las crecientes restricciones impuestas por las regulaciones de la Unión Europea en materia de protección de datos e inteligencia artificial.
A research preview of Operator, an agent that can use its own browser to perform tasks for you. pic.twitter.com/wkBBDIlVqj
— OpenAI (@OpenAI) January 23, 2025
¿Cómo funciona Operator?
Operator se basa en un nuevo modelo llamado Computer-Using Agent (CUA), un modelo que combina las capacidades de visión de GPT-4o con el razonamiento avanzado a través del aprendizaje por refuerzo, es decir, es un modelo que tiene la capacidad de interactuar con interfaces gráficas de usuarios como botones, menús y campos de texto como lo hacen las personas. De esta manera, tiene la flexibilidad necesaria para realizar tareas digitales sin utilizar API específicas del sistema operativo de la web con la que interactúe.
Este modelo, al combinar la percepción avanzada de la interfaz gráfica de usuario con la resolución estructurada de problemas, va dividiendo las tareas en varios pasos y puede aprovechar sus capacidades de razonamiento para autocorregirse. Además, en caso de que no pueda resolver los problemas con los que se encuentre «simplemente devuelve el control al usuario, lo que garantiza una experiencia fluida y colaborativa».
Primeras pruebas
El objetivo de Operator es optimizar las tareas de los usuarios y acercar los beneficios de los agentes a empresas que buscan ofrecer experiencias innovadoras al cliente y aumentar sus tasas de conversión. Según OpenAI, «estamos colaborando con empresas como DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber y otras, para garantizar que Operator aborde necesidades reales respetando las normativas vigentes».
“Operator de OpenAI es un avance tecnológico que hace que procesos como pedir alimentos sean increíblemente fáciles”.
Daniel Danker, director de productos de Instacart
En el comunicado donde se presentó Operator, OpenAI destacó los resultados de las pruebas iniciales realizadas con diversas empresas. Estas demostraron el potencial de la herramienta, logrando un 38,1% de éxito en OSWorld para tareas de uso completo del ordenador, un 58,1% en WebArena y un 87% en WebVoyager para tareas basadas en la web. «Estos resultados ponen de manifiesto la capacidad de Operator para navegar y operar en entornos variados utilizando un único espacio de acción general», afirmaron.
¿Qué aplicaciones tiene?
Utilizar Operator es similar a ChatGPT, tan solo tienes que describirle la tarea que quieres que realice el operador y este se pondra a ejecutarlas. Sin embargo, solicitará la toma de control del usuario cuando las tareas requieran inicio de sesión, detalles de pago o resolución de CAPTCHA. El usuario también podrá tomar el control cuando crea que es necesario.
I got early access to ChatGPT Operator.
— Rowan Cheung (@rowancheung) January 23, 2025
It's OpenAI's new AI agent that autonomously takes action across the web on your behalf.
The 9 most impressive use cases I’ve tried (videos sped up):
1. Ordering dinner ingredients based on a picture and a recipe pic.twitter.com/tdbApPELD4
Using Operator to update my website, and it decided it needed to log into my Google account. Now watching it try to solve a CAPTCHA. Hypnotic. pic.twitter.com/V0PGuZPl1P
— Kevin Roose (@kevinroose) January 24, 2025
Los usuarios pueden personalizar sus flujos de trabajo en Operator añadiendo instrucciones personalizadas, ya sea para todos los sitios o para sitios específicos, como por ejemplo, establecer preferencias para aerolíneas en Booking.com. Operator permite a los usuarios guardar avisos para acceder rápidamente a ellos en la página de inicio, lo que resulta ideal para tareas repetidas, como reponer alimentos en Instacart. De forma similar al uso de varias pestañas en un navegador, los usuarios pueden hacer que Operator ejecute varias tareas simultáneamente creando nuevas conversaciones, como pedir una taza personalizada en Etsy mientras se reserva un camping en Hipcamp.
Aunque, no podemos olvidar que por ahora es una herramienta en desarrollo y tiene ciertas limitaciones como, explican desde OpenAI, «crear presentaciones de diapositivas detalladas, administrar sistemas de calendario complejos o interactuar con interfaces web altamente personalizadas o no estándar», explica OpenAI. Entre estas tareas se encuentran, por ejemplo, realizar transacciones financieras, enviar correos electrónicos o eliminar un evento del calendario