Le modèle le plus puissant vient de perdre de son importance. Ce sont désormais les moins chers et les moins bavards qui dictent le tempo.

Google a mis en accès préliminaire Gemini 3.1 Flash-Lite sur Google AI Studio et Vertex AI. L'annonce est passée presque discrètement, noyée dans le flux habituel des publications tech. Pourtant, les chiffres méritent qu'on s'arrête. Pour comprendre ce que Google cherche à faire, il faut regarder qui souffrait le plus des tarifs précédents : les développeurs à gros volumes.
Deux modèles, deux corrections ciblées
Le tarif de Gemini 3.1 Flash-Lite est de 0,25 dollar par million de tokens en entrée et 1,50 dollar par million en sortie. Gemini 3.1 Pro, lui, est facturé 2 dollars en entrée et 12 dollars en sortie. Le rapport est de un à huit. Sur des applications qui traitent des millions de requêtes quotidiennes, l'écart se chiffre vite en dizaines de milliers de dollars par mois.
Mais le prix seul ne suffit pas à convaincre. Les performances suivent. Le modèle affiche un temps de première réponse 2,5 fois plus rapide que Gemini 2.5 Flash, avec une vitesse de génération en hausse de 45%. Sur le benchmark GPQA Diamond, qui mesure les capacités de raisonnement scientifique, il obtient 86,9%. Son score Elo sur Arena.ai s'établit à 1 432, au-dessus de plusieurs modèles Gemini plus lourds des générations précédentes.
Pourquoi Google fait ça maintenant
Ce n'est pas de la générosité tarifaire. C'est une réponse directe à DeepSeek, qui a prouvé en début d'année que des modèles compacts pouvaient tenir tête aux mastodontes. C'est aussi une réaction à Anthropic, dont Claude 4.5 Haiku est facturé 1 dollar en entrée et 5 dollars en sortie, soit encore quatre fois plus cher que Flash-Lite. Le segment des développeurs indépendants et des startups qui déploient à grande échelle est devenu le terrain de jeu prioritaire.
Cette tendance dépasse les frontières américaines. Multiverse Computing, une startup basque, publiait récemment un modèle open source deux fois plus léger, visant exactement ce marché des modèles déployables sans infrastructure cloud lourde. L'efficience est devenue la nouvelle unité de mesure, et Google ne pouvait pas rester spectateur.