Le coup est tombé deux jours après Anthropic. Google publie Gemini 3.1 Pro et annonce avoir doublé ses performances de raisonnement. Les chiffres sont là. Mais le classement dépend toujours de qui tient le stylo.

Gemini 3 s'offre une mise à jour incrémentale mais pas dénuée d'intérêt. © Google
Gemini 3 s'offre une mise à jour incrémentale mais pas dénuée d'intérêt. © Google

Google a lancé Gemini 3.1 Pro hier soir, d'abord en accès anticipé. Selon Mashable, il surpasse Claude Opus 4.6, Claude Sonnet 4.6 et GPT-5.2 sur la majorité des tests publiés par Google. Il arrive moins de deux jours après Claude Sonnet 4.6, dont nous avions documenté la montée en puissance agentique, et peu après GPT-5.3 Codex d'OpenAI. Ces sorties successives confirment une tendance lourde : pour tous les grands laboratoires, 2026 est l'année de l'agent autonome.

Des performances de raisonnement doublées, selon les propres données de Google

Gemini 3.1 Pro atteint 77,1% sur ARC-AGI-2, un test qui évalue la capacité à résoudre des schémas logiques entièrement nouveaux. C'est plus du double du score de son prédécesseur Gemini 3 Pro. Sur GPQA Diamond, un test de connaissances expertes, le modèle obtient 94,3%, contre 91,9% pour Gemini 3 Pro et 91,5% pour Claude Opus 4.6. Sur SWE-Bench Verified, un test de résolution de bogues réels, il affiche 80,6%, devant GPT-5.2 à 80%. Le modèle est accessible dès maintenant dans l'application Gemini, NotebookLM si vous êtes abonné ainsi que Google AI Studio et sur Vertex AI pour les développeurs et les filous.

Google Gemini
  • Un modèle de génération puissant
  • Une base de connaissances actualisée en temps réel
  • Gratuit et intégré à l'écosystème Google
8 / 10

Le contexte n'est pas anodin. Claude Sonnet 4.6 misait sur le contrôle d'ordinateur quasi-humain. GPT-5.3 Codex se présentait, lui, comme un agent à usage général capable de piloter l'ensemble d'un cycle logiciel. Google arrive avec une proposition différente : un raisonnement de base plus solide, censé améliorer toutes les tâches en aval.

Ce que les évaluations indépendantes révèlent vraiment

Sur les tests de raisonnement abstrait, Google avance avec confiance. Mais sur le terrain agentique en conditions réelles, le tableau est plus nuancé. Selon Artificial Analysis, Gemini 3.1 Pro progresse de plus de 100 points Elo sur GDPval-AA, son test d'évaluation de tâches concrètes. Il reste pourtant derrière Claude Sonnet 4.6, Claude Opus 4.6 et GPT-5.2 à puissance maximale. Sur SWE-Bench Pro, GPT-5.3 Codex maintient la première place, avec 56,8% contre 54,2% pour Gemini 3.1 Pro.

Le mécanisme commence à être connu. Chaque grand laboratoire sélectionne les tests où il brille pour construire son communiqué. Google a mis en avant ARC-AGI-2. OpenAI a choisi SWE-Bench Pro. Anthropic a insisté sur la manipulation d'ordinateur, domaine où Claude conserve un avantage. Cette guerre des tests n'est pas nouvelle. Mais en 2026, elle prend une dimension supplémentaire : les entreprises qui déploient des agents autonomes ont besoin d'évaluations neutres, pas de classements maison. Avec un temps avant première réponse de 29 secondes en moyenne selon Artificial Analysis, le modèle est à l'évidence encore en phase de rodage.