Victime de son succès, littéralement. La demande pour les outils d’intelligence artificielle (IA) très énergivores d’Anthropic est telle que l’entreprise peine à fournir la puissance de calcul nécessaire à leur bon fonctionnement. Et c’est très embêtant.

Anthropic est victime de son propre succès. ©Stockinq / Shutterstock
Anthropic est victime de son propre succès. ©Stockinq / Shutterstock

Car dans la course invétérée à l’IA, un nom ressort souvent ces dernières semaines : Claude. Les utilisateurs se ruent vers l’entreprise qui s’est opposée au Pentagone, dont la pertinence des outils est plébiscitée par l’industrie. À tel point que sa grande rivale OpenAI vient d’annoncer un virage stratégique majeur pour jouer sur le même terrain, celui de l’entreprise.

Concurrence pour l’accès aux précieuses puces

Mais le revers de la médaille est bien là. Anthropic ne dispose pas de ses propres centres de données, elle s’appuie sur ceux de deux investisseurs de renom, Google et Amazon. Problème, la start-up se retrouve en concurrence directe pour les ressources avec ses propres bailleurs de fonds. Et ces derniers privilégient naturellement leurs propres écosystèmes d’IA.

Cela crée un important goulot d’étranglement, révèle le très bien renseigné The Information : chaque puce IA est âprement disputée entre les acteurs. Une réalité d’autant plus lourde pour Anthropic que ses systèmes Claude Code et Cowork consomment énormément d’énergie : ils effectuent des boucles de réflexion complexes qui consomment 10 à 100 fois plus de tokens par interaction.

Claude AI
  • Upload de fichiers pouvant aller jusqu'à 100 000 tokens (75 000 mots environ)
  • Personnalisation avancée
  • Conception éthique
9 / 10

Anthropic tente de colmater la brèche

Les effets de cette situation se sont déjà répercutés sur les utilisateurs, avec une interruption majeure des services le 2 mars dernier. Et depuis, certains ont noté des latences bien plus importantes qu’à l’accoutumée. Anthropic tente par tous les moyens de limiter la casse.

D’où la mise en place d’une stratégie de rationnement intelligent, c’est-à-dire des limites d’utilisation beaucoup plus strictes durant les pics d’activité, obligeant même les abonnés payants à modérer leurs requêtes en pleine journée de travail. Au contraire, la firme a doublé les quotas durant la nuit et le week-end, tentant désespérément de déplacer la consommation vers les heures où les serveurs sont moins sous pression.

C’est un réel problème, alors que de plus en plus d’entreprises se tournent vers Claude. Elles pourraient, en effet, hésiter à passer le pas si le service devient instable dès que la demande mondiale grimpe. Par ailleurs, les marges brutes d’Anthropic sont sous pression. Subventionner le calcul pour gagner des parts de marché devient tout bonnement intenable si le coût de l’infrastructure dépasse les revenus des abonnements. Et cela pourrait bientôt être le cas

À découvrir
Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2026
04 février 2025 à 14h11
Comparatifs services
Foire aux questionsContenu généré par l’IA
Pourquoi l’accès aux puces IA (GPU/TPU) devient-il un goulot d’étranglement pour des services comme Claude ?

Les modèles d’IA générative reposent sur des accélérateurs matériels (GPU, TPU) pour exécuter rapidement des calculs massifs, aussi bien à l’entraînement qu’en production. La capacité disponible dépend du nombre de puces, de l’alimentation électrique, du refroidissement et des limites des centres de données, ce qui ne se “scale” pas instantanément. Quand plusieurs acteurs se disputent les mêmes ressources chez un même fournisseur cloud, l’allocation peut devenir le facteur limitant, même si la demande utilisateur explose. Résultat : latences, files d’attente, voire interruptions si la plateforme ne parvient plus à servir les requêtes au niveau de qualité attendu.

Que signifie “consommer 10 à 100 fois plus de tokens par interaction”, et pourquoi cela pèse autant sur l’infrastructure ?

Un token est une unité de texte (morceaux de mots) utilisée pour mesurer l’entrée et la sortie d’un modèle, et surtout la quantité de calcul associée. Plus une interaction mobilise de tokens, plus elle monopolise longtemps les puces, la mémoire et la bande passante, ce qui réduit le nombre de requêtes traitées en parallèle. Les modes de “réflexion” ou de raisonnement multi-étapes augmentent fortement le volume de tokens générés ou manipulés avant de produire une réponse. À l’échelle, cette hausse se traduit directement par une facture compute plus élevée et par un risque accru de saturation aux heures de pointe.

En quoi consiste le “rationnement intelligent” (quotas dynamiques), et comment cela stabilise un service d’IA ?

Le rationnement intelligent consiste à appliquer des limites d’usage qui varient selon la charge : quotas plus stricts quand les serveurs sont sous pression, et plus généreux quand la demande baisse. Techniquement, cela s’appuie sur des mécanismes de gestion de trafic (rate limiting), de priorisation (par type d’abonnement, de requête ou de latence cible) et parfois de mise en file (queueing). L’objectif est d’éviter qu’un pic de demandes ne fasse chuter l’ensemble du service en répartissant mieux la capacité disponible. En contrepartie, l’expérience devient moins prévisible pour les utilisateurs, surtout si des tâches “lourdes” sont ralenties ou reportées.