Annonces de NVIDIA lors de la conférence SC25 : mini-supercalculateurs

SC25 : Le prochain chapitre du supercalcul IA de NVIDIA

Lors de la conférence SC25 à Saint-Louis, NVIDIA a présenté un aperçu des prochaines années en matière de supercalculateurs IA. L'entreprise a abordé tous les aspects, des supercalculateurs compacts de la taille d'un ordinateur de bureau aux réseaux compatibles avec l'informatique quantique, en passant par les centres de données à faible consommation énergétique.

Le fondateur et PDG de NVIDIA, Jensen Huang, a fait une apparition surprise pour présenter Grace Blackwell, l'architecture de nouvelle génération de l'entreprise, et a plaisanté en disant qu'ils fabriquaient des supercalculateurs comme des bonbons. Il a également apporté une preuve concrète de cette affirmation sous la forme de systèmes DGX Spark offerts aux participants.

DGX Spark est le nouveau supercalculateur IA de bureau de NVIDIA. Il offre une puissance de calcul d'un pétaflops et 128 Go de mémoire unifiée dans un format de station de travail compacte. Cette puissance est suffisante pour effectuer des inférences sur des modèles comportant jusqu'à 200 milliards de paramètres et les affiner localement sans transférer les données vers le cloud.

Basé sur l'architecture Grace Blackwell, le DGX Spark intègre dans un seul boîtier des processeurs et des cartes graphiques NVIDIA, une connectivité réseau haut débit, les bibliothèques CUDA et l'ensemble de la suite logicielle d'IA NVIDIA. Son architecture mémoire unifiée, associée à l'interconnexion NVLink C2C, offre une bande passante environ cinq fois supérieure à celle du PCIe Gen5, ce qui se traduit par des échanges de données beaucoup plus rapides entre le processeur et la carte graphique, ainsi que par un entraînement et un réglage plus fluides pour les modèles complexes.

Nouveaux cerveaux pour les usines de physique, de simulation et d'IA

L'un des thèmes majeurs de SC25 était l'utilisation de l'IA non seulement pour les chatbots et la génération d'images, mais aussi pour optimiser les charges de travail en physique, en ingénierie et en simulation.

NVIDIA Apollo est une nouvelle famille de modèles physiques d'IA ouverts. Ces modèles combinent des techniques d'apprentissage automatique modernes, telles que les opérateurs neuronaux, les transformateurs et la diffusion, avec une connaissance approfondie de domaines comme la conception de semi-conducteurs, la dynamique des fluides, la mécanique des structures et la modélisation météorologique.

Des entreprises comme Applied Materials, Cadence, LAM Research, Siemens et Synopsys utilisent déjà Apollo pour accélérer la conception et la simulation. NVIDIA publiera des points de contrôle pré-entraînés et des flux de travail de référence afin que les développeurs puissent intégrer Apollo à leurs propres outils d'entraînement, d'inférence et d'évaluation des performances.

Côté logiciel, NVIDIA Warp constitue un autre élément essentiel de la simulation physique. Warp est un framework Python open source qui permet aux développeurs de créer des simulations physiques hautes performances exécutées sur GPU, souvent jusqu'à 245 fois plus rapidement que les versions basées sur CPU.

Warp offre aux utilisateurs de Python une méthode structurée pour créer des simulations 3D pour la robotique, l'apprentissage automatique et les jumeaux numériques, avec des performances proches de celles d'un code CUDA optimisé manuellement. Il s'intègre aux frameworks d'apprentissage automatique populaires comme PyTorch et JAX et se connecte aux plateformes NVIDIA telles qu'Omniverse et PhysicsNeMo. Des entreprises comme Siemens, Neural Concept et Luminary Cloud utilisent déjà Warp pour étendre leurs pipelines de simulation.

Au cœur de ces centres de données dédiés à l'IA, NVIDIA promeut les DPU BlueField 4 comme processeurs du système d'exploitation de l'infrastructure d'IA. BlueField 4 associe un processeur Grace à 64 cœurs à la technologie réseau ConnectX 9 afin de décharger les processeurs et les GPU des tâches de réseau, de stockage et de sécurité. Ceci libère de la puissance de calcul pour les charges de travail d'IA proprement dites, tout en permettant une sécurité « zéro confiance » et des architectures mutualisées.

Les fournisseurs de solutions de stockage DDN, VAST Data et WEKA s'appuient sur BlueField 4 pour déplacer les données plus intelligemment et plus rapidement :

DDN utilise BlueField 4 pour piloter les usines d'IA de nouvelle génération et alimenter les GPU pour l'IA et le HPC.
VAST Data se concentre sur le déplacement intelligent des données et l'efficacité en temps réel dans les grands clusters d'IA.
WEKA exécute son architecture NeuralMesh directement sur BlueField 4, de sorte que les services de stockage s'exécutent sur le DPU lui-même.

Ensemble, ces mesures transforment efficacement le stockage, qui constituait un goulot d'étranglement, en un multiplicateur de performance pour les tâches scientifiques et d'IA de grande envergure.

Réseaux plus rapides, liaisons quantiques et énergie plus intelligente

Avec la croissance des clusters d'IA, la mise en réseau et l'alimentation électrique deviennent rapidement les principaux défis. NVIDIA a répondu à ces deux problématiques grâce à de nouvelles technologies couvrant l'optique, la connectivité quantique et le contrôle des centres de données.

Côté réseau, TACC, Lambda et CoreWeave ont annoncé leur intention d'intégrer les commutateurs optiques co-packagés NVIDIA Quantum X Photonics à leurs systèmes de nouvelle génération. Ces commutateurs InfiniBand fusionnent les composants électroniques et photoniques sur un même boîtier, éliminant ainsi le besoin d'émetteurs-récepteurs enfichables traditionnels.

Cette conception offre une efficacité énergétique environ trois fois et demie supérieure et une résilience jusqu'à dix fois plus élevée. Les tâches peuvent s'exécuter jusqu'à cinq fois plus longtemps sans interruption grâce à la suppression du point de défaillance habituel, le connecteur optique enfichable. Les commutateurs InfiniBand Quantum X800, qui prennent en charge des modèles génératifs à l'échelle du billion de paramètres à 800 gigabits par seconde de bout en bout, bénéficient également de fonctionnalités telles que SHARPv4 pour le calcul réseau et la prise en charge de FP8 pour un entraînement plus efficace.

Au-delà des réseaux classiques, plus d'une douzaine de grands centres de supercalcul à travers le monde adoptent NVQLink, une interconnexion universelle reliant directement les GPU NVIDIA aux processeurs quantiques. Basé sur la plateforme logicielle CUDA Q, NVQLink offre une puissance de calcul en intelligence artificielle allant jusqu'à 40 pétaflops avec une précision FP4 dans des environnements hybrides classiques-quantiques.

La nouvelle unité de traitement quantique Helios de Quantinuum a été intégrée aux GPU NVIDIA via NVQLink et a permis le premier décodage en temps réel de codes correcteurs d'erreurs quantiques qLDPC évolutifs. Grâce à une latence de l'ordre de la microseconde, le système a atteint une fidélité d'environ 99 % avec correction, contre environ 95 % sans, avec un temps de réaction de 60 microsecondes.

Des centres de recherche situés en Asie-Pacifique, en Europe, au Moyen-Orient et aux États-Unis utilisent NVQLink pour prototyper de véritables applications hybrides et des schémas de correction d'erreurs, jetant ainsi les bases de systèmes quantiques classiques pratiques.

NVIDIA a également annoncé une collaboration majeure avec RIKEN au Japon pour la construction de deux nouveaux supercalculateurs à accélération GPU dédiés à l'IA appliquée à la science et à l'informatique quantique. Ces systèmes utiliseront plus de deux mille GPU Blackwell connectés via les réseaux GB200 NVL4 et Quantum X800 et devraient être opérationnels en 2026. Ils s'inscrivent dans le cadre du vaste programme japonais de développement de l'IA souveraine et de la feuille de route menant au projet FugakuNEXT d'ici 2030.

Côté processeur, Arm adopte NVIDIA NVLink Fusion, l'interconnexion cohérente à large bande passante initialement conçue pour Grace Blackwell. NVLink Fusion permet aux processeurs Arm Neoverse de se connecter directement à l'écosystème NVLink, offrant ainsi aux partenaires la possibilité de concevoir des systèmes à l'échelle du rack où processeurs, GPU et accélérateurs partagent la mémoire et la bande passante de manière plus efficace.

Tout cela nécessite de l'énergie, et NVIDIA considère la consommation énergétique comme un problème logiciel. Le service NVIDIA Domain Power Service (DPS) fonctionne comme un service Kubernetes et modélise les flux d'énergie au sein d'un centre de données. Il interagit avec NVIDIA Omniverse DSX Blueprint et d'autres outils pour limiter et gérer la consommation d'énergie de manière dynamique, permettant ainsi aux opérateurs d'optimiser les performances par mégawatt sans ajouter de matériel.

DPS peut même communiquer avec le réseau électrique via des API pour une gestion automatisée de la demande et des délestages. L'objectif est de rendre les usines IA conscientes des spécificités du réseau afin que chaque watt soit utilisé là où il est le plus nécessaire.

Pour couronner ces performances exceptionnelles, NVIDIA et CoreWeave ont décroché la première place du 30e benchmark de recherche en largeur Graph500, en utilisant 8 192 GPU H100. Leur système a atteint 410 000 milliards d'arêtes parcourues par seconde sur un graphe comportant 2 200 milliards de sommets et 35 000 milliards d'arêtes, soit plus du double du précédent record. Cette performance a combiné les technologies des GPU Hopper, Quantum 2 InfiniBand, CUDA, NVSHMEM et GPUDirect pour former une machine de calcul de graphes colossale.

Article et image originaux : https://blogs.nvidia.com/blog/accelerated-computing-networking-supercomputing-ai/