Plus rien n'arrête l'IA agentique : Google a développé un nouveau modèle capable de naviguer et d'interagir avec le web.

Google n'en finit pas d'améliorer Gemini : après avoir intégré cette technologie dans Google Home, dans le navigateur Google Chrome ainsi que dans Google TV, le géant de la Tech a remporté un franc succès avec le générateur d'images Nano Banana. Il vient d'annoncer l'arrivée d'un nouveau modèle capable de surfer sur le web.
Google lance Gemini 2.5 Computer Use
En mars dernier, Google a lancé Gemini 2.5 Pro, un modèle au raisonnement avancé sur lequel il s'est fondé pour concevoir un agent capable d'interagir avec le web : « notre nouveau modèle spécialisé, basé sur les capacités de compréhension et de raisonnement visuels de Gemini 2.5 Pro, permet aux agents d'interagir avec les interfaces utilisateur (IU) », a-t-il notamment annoncé hier.
Nommée Gemini 2.5 Computer Use, la technologie n'est « pas encore optimisée pour un contrôle au niveau du système d'exploitation de bureau ». Elle peut analyser les demandes de l'utilisateur et lancer plusieurs actions sur le web : ouverture de navigateur, saisie de texte, glisser-déposer d'éléments, clic sur une zone, défilement de page, etc.
Ce nouveau modèle peut servir à lancer des tests d'interface utilisateur mais aussi pour améliorer des assistants personnels ou automatiser certaines tâches. Dans son annonce, Google affirme qu'il a « affiché d'excellentes performances lors de plusieurs tests de contrôle web et mobile ». Il explique notamment que la technologie « surpasse les principales alternatives sur de nombreux benchmarks de contrôle web et mobile, avec une latence réduite. »
Comment tester ce nouveau modèle ?
Pour l'heure, Gemini 2.5 Computer Use n'est accessible qu'aux développeurs. Ces derniers devront se rendre sur Vertex AI ou Google AI Studio pour tester cette nouveauté. Google a également ouvert une démo pour les plus curieux : vous pouvez y accéder dès maintenant sur le site Browserbase.
Google indique également que des versions de cette technologie sont utilisées au sein du prototype de recherche Project Mariner et dans l'agent de test Firebase. Certaines fonctions sont également incluses dans le mode IA de la recherche Google.
Alors que l'IA agentique a, plus que jamais, le vent en poupe, Google montre ses muscles à la concurrence. Celle-ci n'est pas en reste : ChatGPT a bien avancé sur la question et Opera a intégré un agent IA dans son nouveau navigateur. Quant à la firme Anthropic, cela fait bientôt un an qu'elle a développé un modèle d'utilisation d'ordinateur.
Source : The Verge