Google publie un papier de recherche sur la compression mémoire des modèles d'IA. En quelques heures, des milliards s'évaporent en Bourse. Et si la panique était le vrai problème ?

Le scénario a de quoi surprendre. Mardi, des chercheurs de Google ont publié un billet de blog présentant TurboQuant, un algorithme de compression du cache clé-valeur des grands modèles de langage. Comme le rapporte The Next Web, les marchés n'ont pas attendu d'en comprendre les détails. SK Hynix a perdu 5,9 %, Samsung 4,8 %, Micron 3 %, SanDisk 5,7 %. Le KOSPI a reculé de 3 %. Le PDG de Cloudflare, Matthew Prince, a qualifié l'annonce de « moment DeepSeek de Google ».
TurboQuant compresse le cache, pas les modèles eux-mêmes
Le cache clé-valeur (KV cache) stocke le contexte d'une conversation pour éviter de tout recalculer à chaque mot généré. Plus la fenêtre de contexte est longue, plus ce cache explose. TurboQuant le compresse à 3 bits par valeur, contre 16 habituellement, soit un facteur six. Le tout sans perte mesurable de précision, selon les tests de Google sur cinq bancs d'évaluation standards (LongBench, Needle in a Haystack, ZeroSCROLLS). À 4 bits, l'algorithme accélère jusqu'à huit fois le calcul de l'attention sur GPU NVIDIA H100.
L'avancée est réelle, mais circonscrite. TurboQuant agit sur la mémoire de travail du modèle pendant l'inférence. Il ne touche pas aux poids du modèle lui-même. Or, c'est la taille des modèles qui dicte les besoins en mémoire HBM pour l'entraînement et pour l'IA locale. Un détail que les marchés ont choisi d'ignorer. L'article sera présenté à ICLR 2026 en avril. L'analyste Wells Fargo Andrew Rocha résume le dilemme : TurboQuant attaque la courbe de coûts de la mémoire IA. Si l'adoption se généralise, le volume réel nécessaire est remis en question. Mais Rocha maintient son objectif de 700 dollars sur Micron.
Pourquoi la Bourse panique, et pourquoi elle a tort
La raison de cette sérénité est simple : la demande en mémoire IA croît bien plus vite que les gains d'efficience ne la réduisent. L'histoire de l'informatique le confirme sans exception. Quand le stockage devient moins cher, on stocke davantage. Quand la bande passante augmente, les applications la consomment. Les fenêtres de contexte de Gemini atteignent déjà 1 à 2 millions de tokens. Compresser le KV cache libère de la mémoire GPU pour servir plus d'utilisateurs ou gérer des contextes encore plus longs. Le résultat probable n'est pas moins de mémoire achetée, mais plus de mémoire utile par dollar dépensé. Google le sait : TurboQuant sert aussi la recherche vectorielle, colonne vertébrale de son moteur de recherche et de son ciblage publicitaire. L'entreprise n'a aucun intérêt à réduire ses propres achats de matériel.
La pénurie de DRAM reste structurelle. SK Hynix et Samsung ont clairement indiqué qu'ils ne comptaient pas augmenter massivement leurs capacités de production, préférant maintenir leurs marges. Meta vient d'engager 27 milliards de dollars avec Nebius pour du calcul dédié. Google, Microsoft et Amazon prévoient des centaines de milliards en dépenses d'infrastructure d'ici fin 2026.