Si SpaceX a loué une partie de ses capacités de calcul IA à des entreprises tierces, ce n'est pas parce qu'il en avait trop. Mais plutôt à cause de certains problèmes à la conception !

Quelques semaines avant l'introduction en Bourse de SpaceX, et sa montée au pinacle, l'on apprenait que le géant aéronautique et de l'intelligence artificielle (depuis l'intégration de xAI) avait décidé de louer une partie de ses infrastructures à Anthropic. Un deal important à 1,2 milliard de dollars par mois qui semble plus un lot de consolation qu'autre chose pour l'entreprise d'Elon Musk, vu les informations qui filtrent.
Le supercalculateur Colossus 1 est mal connecté aux deux autres qui appartiennent à SpaceX
Anthropic est dorénavant dans les locaux de SpaceX, et entraîne ses modèles IA sur le supercalculateur Colossus 1. Mais si la firme de Dario Amodei a pu accéder à ce supercalculateur, c'est à cause de problèmes rencontrés par SpaceX, selon une information de Bloomberg.
En effet, SpaceX aurait rencontré des problèmes de latence en tentant de connecter Colossus 1 à deux autres supercalculateurs situés à 16 kilomètres de ce dernier. Des problèmes accrus par une infrastructure réseau vieillie. Or, l'objectif initial de SpaceX était d'entraîner ses meilleurs modèles Grok en usant d'un cluster réunissant ces trois sites. Mais si la bande passante est mauvaise, ou si des retards sont enregistrés, l'ensemble du cluster est ralenti, ce qui entraîne une sous-utilisation.

Colossus 1 est plus utile à SpaceX en tant qu'infrastructure louée
Il faut aussi noter que Colossus 1 apparaît fait de bric et de broc en comparaison des supercalculateurs suivants. Il intègre ainsi différents GPU NVIDIA de génération Hopper et Blackwell, et même des accélérateurs de générations antérieures. Colossus 2 et 3 eux sont entièrement équipés de GPU Blackwell, la dernière génération produite par NVIDIA.
Comme le note The Next Web, « dans un cluster d'entraînement distribué, la charge de travail est répartie entre des machines qui doivent rester synchronisées. Les puces plus anciennes créent des goulots d'étranglement en obligeant les accélérateurs plus rapides à attendre. » Au final, avec des matériels de différentes puissances, le cluster tend à fonctionner au niveau de performance des matériels les plus lents, et non pas les plus rapides.
Autant dire qu'il est apparu au final plus intéressant pour SpaceX de louer ses infrastructures à Anthropic, mais aussi à Google !
Source : TheNextWeb