Gemini 3.5 Flash : quand le modèle « léger » de Google bat les poids lourds sur le terrain

Google ouvre l'I/O 2026 avec un modèle Flash qui surpasse son propre Pro sur les tâches agentiques. À un tiers du prix de la concurrence, il arrive avec la plateforme agent, la distribution et la base installée. Le benchmark n'est que l'entrée en matière.

Gemini 3.5 Flash © Google

La nomenclature de Google obéit depuis trois générations à une hiérarchie simple : Pro pour la puissance brute, Flash pour la vitesse à moindre coût et Flash-Lite pour coût le plus bas. Gemini 3.5 Flash, déployé ce 19 mai lors de la keynote I/O 2026, bouscule cette logique. Sur Terminal-Bench 2.1, le test de codage de référence, le modèle atteint 76,2 %, contre 70,3 % pour Gemini 3.1 Pro, le modèle frontière que Google a lancé en février. Sur MCP Atlas, qui mesure la capacité à orchestrer des outils externes, il monte à 83,6 %. Sur l'index composite d'Artificial Analysis, il obtient 55, à deux points de Claude Opus 4.7 et cinq de GPT-5.5. L'écart se resserre au point qu'on ne distingue plus les catégories à l'œil nu.

Un Flash qui ne sait pas rester à sa place

Les benchmarks racontent deux histoires selon l'angle de lecture. Sur les tests qui mesurent la connaissance pure et le raisonnement abstrait, la hiérarchie traditionnelle tient. ARC-AGI-2 (puzzles logiques inédits) : 72,1 % pour Flash contre 77,1 % pour 3.1 Pro et 84,6 % pour GPT-5.5. Humanity's Last Exam : 40,2 % contre 44,4 % pour Pro. Ce sont les tests où la taille du modèle et la profondeur paramétrique pèsent encore. Sur les tests qui ressemblent à du travail réel, en revanche, c'est l'inverse. Terminal-Bench 2.1, MCP Atlas, Finance Agent v2, GDPval-AA (1 656 points, benchmark d'évaluation de tâches concrètes), OSWorld-Verified (78,4 %) : Flash mène ou talonne les modèles frontière qui coûtent trois à cinq fois plus cher. En multimodal, il affiche 83,6 % sur MMMU-Pro, le score le plus élevé jamais enregistré sur ce test, devant GPT-5.5 (81,2 %) et Claude Opus 4.7 (75,2 %).

Google Gemini

Un modèle de génération puissant
Une base de connaissances actualisée en temps réel
Gratuit et intégré à l'écosystème Google

8 / 10

Télécharger

La comparaison appelle une nuance que Google ne met pas en avant dans son communiqué. Gemini 3.5 Flash appartient à la gamme Flash, conçue pour la vitesse et le coût. Claude Opus 4.7 et GPT-5.5 sont les locomotives de la gamme Pro chez leurs éditeurs respectifs. Le vrai comparatif à gamme équivalente sera Gemini 3.5 Pro, annoncé pour le mois prochain. Comparer 3.5 Flash aux poids lourds revient à mesurer un Flash-Lite contre un Pro : ce n'est pas de la triche, c'est une démonstration d'efficience. Et c'est précisément la thèse que Google défend.

Le tarif confirme le positionnement. Gemini 3.5 Flash facture 1,50 dollar par million de tokens en entrée et 9 dollars en sortie, avec une réduction de 90 % sur les tokens en cache. Claude Opus 4.7 est à 5 dollars en entrée et 25 dollars en sortie. GPT-5.5 à 5 et 30 dollars. Pour une entreprise qui déploie des agents autonomes traitant des millions de requêtes, le rapport qualité-prix bascule. Le coût d'inférence devient un argument stratégique, pas un détail comptable.

Le vrai lancement, c'est le bundle

L'annonce du modèle seul aurait suffi à nourrir les fils techniques pendant une semaine. Mais Google a fait un choix que ni OpenAI ni Anthropic n'ont reproduit à cette échelle : livrer le même jour le modèle, la plateforme agent et la distribution grand public. Antigravity 2.0, l'environnement de développement agentique de Google (comprendre : le concurrent à Cursor, GitHub Copilot et Claude Code), tourne nativement sur 3.5 Flash. Il orchestre plusieurs agents en parallèle, gère des sous-agents personnalisés, planifie des tâches en arrière-plan et propose un CLI pour ceux qui préfèrent le terminal. Gemini Spark, agent personnel 24/7 alimenté par 3.5 Flash, fonctionne sur des machines virtuelles dédiées dans Google Cloud et s'intègre à Gmail, Docs, Agenda et au reste de Workspace. Les extensions tierces via MCP (qui permettront de décupler les capacités de l'agent au-delà du pré-carré de Google) arrivent cet été.

La base installée donne la mesure de l'ambition du géant de Mountain View. L'application Gemini revendique 900 millions d'utilisateurs actifs mensuels. AI Mode dans Google Search dépasse le milliard. Gemini 3.5 Flash est le modèle par défaut dans les deux produits dès aujourd'hui. Quand Anthropic lance un modèle, il alimente Claude, son API et quelques partenaires triés. Quand OpenAI lance un modèle, il alimente ChatGPT, Codex et son API. Quand Google lance un modèle, il alimente Search, l'app Gemini, Workspace, Android, YouTube et une plateforme de développement agent. La différence n'est pas qualitative, elle est structurelle. Et avec le lancement parallèle de Gemini Omni Flash (génération vidéo multimodale) et la refonte « Neural Expressive » de l'interface de l'app, Google transforme l'I/O 2026 en démonstration d'intégration verticale.

La question que 3.5 Flash pose aux concurrents n'est pas « qui a le meilleur score sur ARC-AGI-2 ». C'est « qui peut servir un modèle quasi-frontière à 280 tokens par seconde, à un tiers du prix, dans un milliard de sessions de recherche quotidiennes, tout en vendant la plateforme agent qui va avec ». La réponse, pour l'instant, est Google. Et 3.5 Pro n'est même pas encore sorti.

À découvrir

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2026

04 février 2025 à 14h11

Comparatifs services