Pourquoi les usines d’IA ont besoin de réseaux plus intelligents
Alors que les modèles d'IA passent de milliards à des milliers de milliards de paramètres, les centres de données se transforment en d'énormes usines d'IA. Ces environnements peuvent contenir des dizaines de milliers de GPU travaillant tous ensemble sur la même tâche d'entraînement. Pour maintenir ce matériel occupé, le réseau doit être rapide, prévisible et incroyablement fiable.
NVIDIA Spectrum X Ethernet est conçu spécifiquement pour ces défis d'échelle de l'IA. Il combine des commutateurs Ethernet spécialisés, des NIC intelligents et des logiciels intelligents pour créer un tissu réseau capable d'alimenter d'énormes grappes de GPU sans goulots d'étranglement.
Au cœur de cette approche se trouve un nouveau protocole de transport appelé Multipath Reliable Connection, ou MRC. Développé et déployé par des entreprises comme NVIDIA, Microsoft et OpenAI, le MRC est conçu pour maintenir une utilisation élevée des GPU et éviter les ralentissements même dans de très grandes grappes d'entraînement d'IA.
Au lieu de traiter le réseau comme une route unique entre deux points, le MRC le traite comme un réseau routier complet. Il peut répartir le trafic sur de nombreux chemins à la fois et le rediriger à la volée lorsque des congestions ou des pannes apparaissent.
Ce que fait réellement la connexion fiable multipath
Le MRC est un protocole de transport RDMA. RDMA signifie Remote Direct Memory Access, une technologie qui permet aux systèmes d'échanger des données directement entre les mémoires avec une très faible surcharge CPU et une faible latence. Le RDMA est déjà largement utilisé dans le calcul haute performance et l'IA, mais les transports traditionnels supposent un seul chemin principal entre les points d'extrémité.
Le MRC change cela en permettant à une seule connexion RDMA d'utiliser plusieurs chemins en parallèle. Cela apporte plusieurs avantages importants pour les charges de travail d'IA :
-
Utilisation plus élevée des GPU
En équilibrant la charge du trafic sur tous les chemins réseau disponibles, le MRC aide à garantir que chaque GPU obtient constamment la bande passante dont il a besoin. C'est essentiel lors de longs entraînements où tout délai peut laisser des GPU coûteux inactifs. -
Meilleures performances en cas de congestion
Le MRC peut détecter les chemins surchargés en temps réel et en éloigner le trafic. Cela maintient une bande passante agrégée élevée même lorsque des parties du réseau sont occupées. -
Récupération rapide après une perte de données
Si des paquets sont perdus, le MRC prend en charge la retransmission intelligente qui ne cible que ce qui est nécessaire. Cela réduit l'impact des courtes interruptions et aide les tâches de longue durée à se poursuivre sans ralentissements importants. -
Visibilité et contrôle précis
Les administrateurs ont une meilleure visibilité sur les chemins utilisés et sur les problèmes potentiels. Cela facilite les opérations et le dépannage, en particulier à très grande échelle.
OpenAI rapporte que le déploiement du MRC dans ses systèmes de génération Blackwell a permis d'éviter les ralentissements typiques liés au réseau et de maintenir l'efficacité de l'entraînement des modèles de pointe à grande échelle. Microsoft et Oracle Cloud Infrastructure utilisent également le MRC dans certains de leurs plus grands centres de données d'IA pour atteindre des objectifs de performance et de fiabilité exigeants.
Résilience au niveau matériel et conceptions multiplans
L'un des grands défis des grands clusters d'IA est de maintenir des milliers, voire des centaines de milliers de GPU synchronisés. Une courte perturbation sur un seul chemin réseau peut ralentir ou interrompre l'ensemble du travail d'entraînement.
Spectrum X Ethernet inclut un mécanisme de contournement des pannes basé sur le matériel, optimisé pour le MRC. Il peut détecter une panne de chemin en microsecondes et rediriger automatiquement le trafic dans le matériel. C'est beaucoup plus rapide que la plupart des méthodes de récupération logicielles et cela aide à maintenir les entraînements sur la bonne voie.
Un autre concept clé est l'utilisation de conceptions de réseau multiplans. Au lieu d'un seul tissu réseau, le centre de données est construit avec plusieurs plans indépendants. Chaque plan peut transporter du trafic entre les GPU, offrant des routes alternatives à un niveau architectural supérieur.
La capacité multiplan de NVIDIA Spectrum X ajoute un équilibrage de charge accéléré par le matériel sur ces plans. Combiné au MRC, cette approche permet :
- Une résilience améliorée car des plans ou des chemins individuels peuvent tomber en panne sans faire tomber l'ensemble du cluster.
- Une mise à l'échelle massive à des centaines de milliers de GPU sans pics de latence imprévisibles.
- Des performances prévisibles grâce à une distribution intelligente du trafic au niveau du chemin et du plan.
Cette configuration est particulièrement intéressante pour les hyperscalers et les fournisseurs de cloud qui construisent des usines d'IA dédiées à l'entraînement de grands modèles linguistiques et d'autres systèmes d'IA gourmands en données.
Flexibilité de transport sur Spectrum X Ethernet
Spectrum X Ethernet est conçu comme une plateforme flexible plutôt que comme une seule pile fixe. Sur ce matériel, les clients peuvent exécuter différents modèles de transport RDMA en fonction de leurs besoins.
Les options prises en charge comprennent :
- MRC pour un équilibrage de charge multipath avancé et une résilience à grande échelle.
- Spectrum X Ethernet Adaptive RDMA qui propose sa propre approche pour gérer la congestion et les performances.
- Des protocoles personnalisés qui peuvent tirer parti de la même accélération matérielle, de la télémétrie approfondie et du contrôle du tissu.
Tous ces transports s'exécutent nativement sur les SuperNIC NVIDIA ConnectX et les commutateurs Spectrum X et peuvent être utilisés dans des conceptions de réseau multiplans. Cela donne aux opérateurs la flexibilité d'adapter le transport à chaque charge de travail ou type de cluster.
Le MRC lui-même a été prouvé pour la première fois en production sur le matériel Spectrum X, puis publié en tant que spécification ouverte via l'Open Compute Project. Cela signifie que les idées derrière le MRC sont disponibles pour l'ensemble de l'industrie, et pas seulement pour un écosystème de fournisseur unique.
NVIDIA a collaboré avec AMD, Broadcom, Intel, Microsoft et OpenAI pour développer le MRC, montrant un intérêt généralisé de l'industrie pour la résolution des problèmes de réseau d'IA à cette nouvelle échelle.
Pourquoi cela est important pour l'avenir de l'infrastructure d'IA
À mesure que les usines d'IA continuent de croître, le réseau doit évoluer au-delà de la simple rapidité de déplacement des bits. Il doit être suffisamment intelligent pour rediriger le trafic en cas de problème, suffisamment résilient pour survivre aux pannes sans intervention humaine et basé sur des normes ouvertes qui permettent l'interopérabilité entre différents fournisseurs.
NVIDIA Spectrum X Ethernet, associé au MRC, est un exemple de la façon dont l'industrie relève ces défis. En combinant un matériel spécialement conçu, une télémétrie détaillée et des protocoles de transport avancés, il aide les grands clusters d'IA à maintenir les GPU occupés, les entraînements stables et les performances prévisibles même à très grande échelle.
Pour toute personne intéressée par le calcul haute performance, l'infrastructure d'IA ou l'évolution des réseaux de centres de données, ces développements montrent la direction que prend la prochaine génération de systèmes. Les GPU et les CPU puissants ne sont qu'une partie de l'histoire. Le réseau qui les connecte devient tout aussi essentiel à la performance globale.
Article original et image : https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/