Satya Nadella, directeur général de Microsoft, a admis en juin 2026 que ses équipes abusent des modèles d’IA les plus puissants pour des tâches banales. Le phénomène s’appelle le tokenmaxxing. Microsoft y a répondu non pas en coupant les accès à l’IA, mais en imposant une discipline de coût interne.

Au cours d’un podcast, on a demandé à Satya Nadella si le tokenmaxxing se pratiquait chez Microsoft. « Beaucoup », a répondu le dirigeant, avant même la fin de la question. Le tokenmaxxing désigne le fait de router chaque requête vers le modèle d’IA le plus coûteux, quelle que soit la complexité de la tâche.
Microsoft prévoyait déjà 190 milliards de dollars d’investissement en infrastructure IA sur l’année civile 2026, soit environ 174 milliards d’euros, selon la directrice financière Amy Hood. Quand les employés sollicitent sans distinction les modèles les plus puissants pour reformuler un e-mail ou résumer une réunion, chaque token superflu s’additionne à cette note déjà lourde.
Microsoft interdit à ses ingénieurs de solliciter les modèles d’IA les plus puissants pour des tâches banales
Satya Nadella a choisi l’aveu plutôt que la réprimande. « Je suis un tokenmaxxeur moi-même, c'est addictif », a-t-il déclaré devant le public du podcast. Il a enchaîné sur la consigne concrète : « N'utilisez pas des modèles avancés pour des problèmes non-avancés ». Car ces modèles au sommet de la hiérarchie facturent bien plus par token que leurs équivalents allégés, pour des résultats souvent identiques sur des requêtes simples.
Microsoft ne coupe pas les accès. Le directeur général a orienté ses équipes vers le mode Auto de Microsoft Copilot, qui sélectionne lui-même le modèle adapté à chaque requête, sans que l’utilisateur ait à décider. En clair, on délègue à l’outil le soin de ne pas surconsommer. C'est un retournement notable pour une entreprise qui, depuis deux ans, a intégré l’IA dans Windows, Office et Azure en poussant ses collaborateurs à l’utiliser sans limite.
Les ingénieurs de la division Experiences & Devices devront abandonner Claude Code d’Anthropic avant le 30 juin 2026, date de clôture de l’exercice fiscal. L’outil, déployé en décembre 2025 auprès de milliers de développeurs, chefs de projet et designers, avait séduit au point de supplanter GitHub Copilot CLI dans l’usage quotidien et les équipes en avaient consommé tant de tokens que la direction a mis fin à l’expérience.

Sans plafond d’usage fixé en interne, des entreprises ont dépensé des centaines de millions d’euros en tokens d’IA en quelques semaines
Dans les grandes entreprises technologiques, des équipes ont instauré des classements internes où la productivité se mesure au volume de tokens traités par employé, comme chez Amazon. Ce type d’indicateur récompense la consommation, pas la qualité du travail produit.
Microsoft écrit aujourd’hui 30 % de son code à l’aide de l’IA générative, selon Satya Nadella lui-même. Ce chiffre élevé n’a pas empêché la dérive. Intégrer l'IA dans les flux de travail ne suffit pas à maîtriser les coûts si personne ne cadre quelle tâche mérite quel niveau de modèle.
Nous vous parlions récemment de cette entreprise non identifiée qui avait dépensé 460 millions d’euros en un seul mois sur Claude soit environ 500 millions de dollars, faute d’avoir défini des plafonds d’usage. Idem pour Uber qui avait épuisé l'intégralité de son budget annuel d’outils IA en quatre mois, selon un témoignage de son directeur technique.
Pour Satya Nadella, ses équipes doivent toujours se demander « Qu'est-ce que j'essaie de créer ? ». Non pas combien de tokens ont été consommés, ni quel modèle a été sollicité, mais quelle est la valeur du résultat.
Source : Windows Central