Généré par IA·En savoir plus
© The Verge
IA & Tech·-2 h

SpaceX loue Colossus 1 à Anthropic après que des problèmes de latence et d'incompatibilité matérielle ont compromis les plans Grok

SpaceX a loué la pleine capacité de son centre de données de Memphis à Anthropic après que des problèmes de latence et d'incompatibilité matérielle l'ont empêché d'utiliser l'installation pour entraîner ses modèles d'IA Grok. L'accord rapporte 1,25 milliard de dollars par mois.

Obstacles techniques

SpaceX avait prévu d'entraîner ses modèles d'IA Grok les plus avancés en utilisant un cluster de trois campus de centres de données. L'entreprise a rencontré des problèmes de latence lors de la connexion de son installation Colossus 1 à Memphis avec deux autres sites situés à plus de 10 miles, ont confié des personnes proches du dossier à Bloomberg. L'infrastructure réseau vieillissante a aggravé le problème. L'entraînement de grands modèles d'IA nécessite des connexions inter-sites ultra-rapides, et les liens plus anciens et à faible bande passante ont créé des retards qui ont ralenti l'ensemble du cluster. SpaceX a jugé que l'installation générerait plus de valeur en tant que bien locatif qu'en restant sous-utilisée.

Incompatibilité matérielle

La configuration des puces à l'intérieur de Colossus 1 a aggravé la situation. Le centre de données abrite un mélange de générations de puces Nvidia, notamment des systèmes Hopper et Blackwell aux côtés d'accélérateurs plus anciens. Colossus 2 et 3 ont été construits de manière plus homogène autour des puces Blackwell de Nvidia. Dans un cluster d'entraînement distribué, les charges de travail doivent rester synchronisées, de sorte que les processeurs plus anciens créent des goulots d'étranglement en obligeant les accélérateurs plus rapides à attendre. Le cluster fonctionne au rythme de son composant le plus lent.

Aubaine commerciale

Anthropic paie désormais 1,25 milliard de dollars par mois pour utiliser l'installation que les ingénieurs de SpaceX n'ont pas pu utiliser pleinement. Combiné à un accord distinct de 920 millions de dollars par mois avec Google pour la capacité de calcul, SpaceX perçoit environ 2,17 milliards de dollars par mois grâce à une infrastructure initialement construite pour un usage interne. Musk a décrit l'arrangement avec Anthropic comme un bail de 180 jours avec un droit de résiliation réciproque de 90 jours, préservant la possibilité de récupérer la capacité.

Si la puissance de calcul devient vraiment tendue, j'ai dit que nous pourrions avoir besoin de la récupérer à un moment donné.

Loyer mensuel de la puissance de calcul pour Colossus 1 et capacité associée · millions USD/mois
Anthropic
1250 millions USD/mois
Google
920 millions USD/mois

Récit d'introduction en bourse remis en question

Cette révélation complique le récit présenté par SpaceX lors de sa tournée d'introduction en bourse. L'entreprise a souligné à plusieurs reprises que Colossus 1 a été construit en seulement 122 jours, surpassant les moyennes du secteur. La rapidité était un argument de vente. Le reportage de Bloomberg suggère que cette rapidité a eu un coût : l'installation n'a pas été construite de manière suffisamment homogène pour servir de partie intégrante d'un cluster d'entraînement plus vaste.

Avenir de Grok

Le directeur financier de SpaceX, Bret Johnsen, a déclaré que l'entreprise n'a pas abandonné ses services d'IA internes, y compris Grok. La porte reste ouverte pour que SpaceX récupère la capacité si nécessaire, bien que la trajectoire de Grok rende cela incertain. SpaceX continue de planifier des serveurs d'IA basés sur des satellites, distincts des problèmes de cluster terrestres.

Memphis

3 sources

Recevoir Pollar Weekly

La semaine en actu, chaque vendredi. Gratuit.

Gratuit. Sans traceurs, sans pub. Désinscription à tout moment.

Plus de Société & Science