A OpenAI lançou o Operator, um agente que utiliza um navegador para realizar tarefas na web de forma autônoma. Através de um navegador próprio, o Operator interage com páginas da web, clicando, digitando e rolando, tal como um ser humano faria. Atualmente em fase de pesquisa, o Operator está disponível para usuários Pro nos Estados Unidos e deve evoluir com base no feedback dos usuários. O objetivo é expandir o acesso para outros tipos de usuários e integrar suas capacidades ao ChatGPT no futuro.
O Operator é impulsionado por um novo modelo chamado Computer-Using Agent (CUA). Combinando as capacidades de visão do GPT-4o com raciocínio avançado por meio de aprendizado por reforço, o CUA é treinado para interagir com interfaces gráficas de usuário (GUIs). O Operator “vê” por meio de screenshots e interage com o navegador usando ações de mouse e teclado, permitindo que execute ações na web sem a necessidade de integrações de API personalizadas.
O que ele pode fazer?
O Operator pode executar uma variedade de tarefas repetitivas, como preencher formulários, planejar férias, reservar restaurantes, fazer compras de supermercado e criar memes. O agente pode se auto-corrigir se encontrar desafios ou cometer erros. Em situações complexas, ele pode solicitar a ajuda do usuário para que este assuma o controle.
Os usuários podem personalizar seus fluxos de trabalho com instruções específicas para todos ou alguns sites. O Operator também permite salvar prompts para acesso rápido, ideal para tarefas repetidas. Além disso, é possível executar múltiplas tarefas simultaneamente abrindo novas conversas, como em abas de um navegador.
Segurança e privacidade
A segurança é uma prioridade, com três camadas de proteção para evitar abusos.
- O usuário está sempre no controle e o Operator pede permissão em momentos críticos.
- Quando informações sensíveis são necessárias, como dados de login ou pagamento, o Operator pede para o usuário assumir o controle. O Operator não coleta ou tira screenshots das informações inseridas nesse modo.
- Antes de ações significativas, como finalizar um pedido ou enviar um e-mail, o agente pede aprovação.
- O Operator é treinado para recusar tarefas sensíveis, como transações bancárias ou decisões importantes.
- Em sites sensíveis, como e-mail ou serviços financeiros, o usuário pode supervisionar de perto as ações do Operator.
O gerenciamento de dados e privacidade também são prioridades. É possível desativar o uso dos dados do Operator para treinar modelos e também excluir todos os dados de navegação com um clique. Além disso, é projetado para detectar e ignorar injeções de prompt e possui um sistema de monitoramento para identificar comportamentos suspeitos.