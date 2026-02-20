Sur les tests de raisonnement abstrait, Google avance avec confiance. Mais sur le terrain agentique en conditions réelles, le tableau est plus nuancé. Selon Artificial Analysis, Gemini 3.1 Pro progresse de plus de 100 points Elo sur GDPval-AA, son test d'évaluation de tâches concrètes. Il reste pourtant derrière Claude Sonnet 4.6, Claude Opus 4.6 et GPT-5.2 à puissance maximale. Sur SWE-Bench Pro, GPT-5.3 Codex maintient la première place, avec 56,8% contre 54,2% pour Gemini 3.1 Pro.

Le mécanisme commence à être connu. Chaque grand laboratoire sélectionne les tests où il brille pour construire son communiqué. Google a mis en avant ARC-AGI-2. OpenAI a choisi SWE-Bench Pro. Anthropic a insisté sur la manipulation d'ordinateur, domaine où Claude conserve un avantage. Cette guerre des tests n'est pas nouvelle. Mais en 2026, elle prend une dimension supplémentaire : les entreprises qui déploient des agents autonomes ont besoin d'évaluations neutres, pas de classements maison. Avec un temps avant première réponse de 29 secondes en moyenne selon Artificial Analysis, le modèle est à l'évidence encore en phase de rodage.