OpenAI transforme ChatGPT en assistant capable d'agir de manière autonome sur le web, combinant réflexion et action pour accomplir des tâches complexes de bout en bout.

Pour ChatGPT, Open AI nous dévoile son meilleur agent ©Shutterstock
Pour ChatGPT, Open AI nous dévoile son meilleur agent ©Shutterstock

Alors qu'Open AI devrait bientôt nous présenter son navigateur agentique, l'entreprise lève le voile sur un nouvel agent qui repousse toutes les limites.

Un agent pensé pour le multi-tâche

Pour l'agent ChatGPT, Open AI a fusionné les fruits de ses travaux. Nous retrouvons ainsi les capacités d'interaction web d'Operator, la possibilité de synthétiser des informations avec Deep Research, et de l'intelligence conversationnelle du chatbot de ChatGPT. L'agent est donc capable d'accomplir des tâches complexes en alternant entre réflexion et action.

Le système dispose d'une boîte à outils comprenant un navigateur visuel pour interagir avec les interfaces graphiques, un navigateur textuel pour les requêtes simples, un terminal et un accès direct aux API. L'agent présenté par Open AI est donc capable de choisir la méthode optimale selon la tâche à accomplir. Par exemple, il peut consulter un calendrier via une API, analyser de grandes quantités de textes avec le navigateur textuel, mais aussi interagir visuellement avec des pages web.

L'architecture repose sur un ordinateur virtuel qui préserve le contexte nécessaire tout en jonglant entre plusieurs outils simultanément. Le modèle peut ainsi ouvrir une page dans le navigateur textuel, télécharger un fichier, le manipuler via le terminal, puis visualiser le résultat dans le navigateur visuel.

Une présentation est disponible en anglais dans la vidéo ci-dessous :

De nouveaux records de performance

Pour évaluer les performances de ses travaux, Open AI explique que sur le test HLE (Humanity's Last Exam), ChatGPT Agent atteint un score record de 41,6 points. Cette performance grimpe à 44,4 points lorsque la machine déploie en parallèle huit tentatives simultanées. Sur FrontierMath, considéré comme le benchmark mathématique le plus difficile, l'agent atteint 27,4% de précision sur des problèmes qui nécessitent généralement des heures ou des jours aux mathématiciens experts.

Le système surpasse également les performances humaines sur plusieurs benchmarks spécialisés. C'est notamment le cas sur DSBench, lequel évalue les agents sur des tâches réalistes de science des données. Open AI note enfin que sur SpreadsheetBench, son agent obtient 45,5% contre 20% pour l'intégration de Copilot à Excel.

OpenAI a également renforcé les mesures de sécurité, particulièrement contre les injections de prompts malveillants. Aussi, des mécanismes de confirmation ont été ajoutés avant de valider toute action conséquente, et les utilisateurs peuvent interrompre ou prendre le contrôle à tout moment.

Face à un risque d'utilisation malveillante, Open AI a classé son ChatGPT Agent comme "High Biological and Chemical capabilities", c'est-à-dire qu'il est potentiellement capable d'assister un humain à concevoir ou manipuler des agents biologiques ou chimiques connus pour être dangereux. C'est la raison pour laquelle l'entreprise a activé les niveaux de garanties les plus stricts associés à son cadre de surveillance Preparedness Framework.

ChatGPT
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
9 / 10