Google Gemini 3.1 Flash-Lite : plus rapide, moins cher, le nouveau modèle de Google n'est pas pour vous

Par Naïm Bada, Spécialiste logiciel et intelligence artificielle.

Publié le 04 mars 2026 à 11h02

Le modèle le plus puissant vient de perdre de son importance. Ce sont désormais les moins chers et les moins bavards qui dictent le tempo.

Gemini à la vitesse de la lumière ? © Shutterstock

Google a mis en accès préliminaire Gemini 3.1 Flash-Lite sur Google AI Studio et Vertex AI. L'annonce est passée presque discrètement, noyée dans le flux habituel des publications tech. Pourtant, les chiffres méritent qu'on s'arrête. Pour comprendre ce que Google cherche à faire, il faut regarder qui souffrait le plus des tarifs précédents : les développeurs à gros volumes.

Deux modèles, deux corrections ciblées

Le tarif de Gemini 3.1 Flash-Lite est de 0,25 dollar par million de tokens en entrée et 1,50 dollar par million en sortie. Gemini 3.1 Pro, lui, est facturé 2 dollars en entrée et 12 dollars en sortie. Le rapport est de un à huit. Sur des applications qui traitent des millions de requêtes quotidiennes, l'écart se chiffre vite en dizaines de milliers de dollars par mois.

Mais le prix seul ne suffit pas à convaincre. Les performances suivent. Le modèle affiche un temps de première réponse 2,5 fois plus rapide que Gemini 2.5 Flash, avec une vitesse de génération en hausse de 45%. Sur le benchmark GPQA Diamond, qui mesure les capacités de raisonnement scientifique, il obtient 86,9%. Son score Elo sur Arena.ai s'établit à 1 432, au-dessus de plusieurs modèles Gemini plus lourds des générations précédentes.

Pourquoi Google fait ça maintenant

Ce n'est pas de la générosité tarifaire. C'est une réponse directe à DeepSeek, qui a prouvé en début d'année que des modèles compacts pouvaient tenir tête aux mastodontes. C'est aussi une réaction à Anthropic, dont Claude 4.5 Haiku est facturé 1 dollar en entrée et 5 dollars en sortie, soit encore quatre fois plus cher que Flash-Lite. Le segment des développeurs indépendants et des startups qui déploient à grande échelle est devenu le terrain de jeu prioritaire.

Cette tendance dépasse les frontières américaines. Multiverse Computing, une startup basque, publiait récemment un modèle open source deux fois plus léger, visant exactement ce marché des modèles déployables sans infrastructure cloud lourde. L'efficience est devenue la nouvelle unité de mesure, et Google ne pouvait pas rester spectateur.

Par Naïm Bada

Spécialiste logiciel et intelligence artificielle

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (2)

Loposo

(message supprimé par son auteur)

gamez

Pourquoi le titre dit que « le nouveau modèle de Google n’est pas pour vous »?