Ignorer et passer au contenu
NVIDIA pulvérise le record Graph500 avec 8 192 GPU H100 sur un cloud commercial

NVIDIA pulvérise le record Graph500 avec 8 192 GPU H100 sur un cloud commercial

NVIDIA établit un nouveau record du monde Graph500

NVIDIA a franchi une étape majeure dans le calcul haute performance, démontrant les progrès considérables réalisés par les clusters GPU modernes et leurs implications pour les futurs joueurs sur PC et dans le cloud. L'entreprise a atteint le chiffre record de 410 000 milliards d'arêtes parcourues par seconde lors du test de recherche en largeur Graph500, se hissant ainsi à la première place du 31e classement Graph500.

Le plus étonnant, c'est que ce résultat n'a pas été obtenu grâce à un supercalculateur gouvernemental secret. Il a été exécuté sur un cluster commercial hébergé par CoreWeave dans un centre de données de Dallas. Cette configuration utilisait 8 192 GPU NVIDIA H100 pour traiter un graphe gigantesque comportant 2 200 milliards de sommets et 35 000 milliards d'arêtes.

Pour donner un ordre de grandeur à cette échelle, imaginez que chaque personne sur Terre ait environ 150 amis. Cela créerait un graphe avec environ 1 200 milliards de relations. Le cluster NVIDIA et CoreWeave pourrait analyser toutes ces connexions en trois millisecondes environ. C'est le genre de vitesse qui permet à un système de connecter d'énormes quantités de données presque instantanément.

Plus impressionnant encore, cette victoire ne repose pas uniquement sur la puissance brute. Comparé aux autres systèmes de pointe du classement Graph500, NVIDIA a offert des performances plus de deux fois supérieures avec un nombre de nœuds bien inférieur. Un système concurrent figurant parmi les dix premiers utilisait environ 9 000 nœuds, tandis que le cluster de NVIDIA n'en utilisait qu'un peu plus de 1 000. Cela se traduit par des performances environ trois fois supérieures par dollar dépensé, un atout considérable pour l'avenir du cloud gaming à grande échelle, de l'IA et des simulations.

Pourquoi les graphiques et Graph500 sont importants

Graph500 est un benchmark conçu pour tester la capacité d'un système à gérer des graphes à grande échelle. Un graphe est une façon de modéliser les relations entre des éléments. Les réseaux sociaux, les systèmes de recommandation, la détection de fraude, le routage et de nombreux outils de sécurité reposent tous sur des graphes.

Dans un graphe, les éléments individuels, tels que les personnes ou les comptes, sont appelés sommets, et les liens entre eux, arêtes. Certains sommets peuvent n'avoir que quelques connexions, tandis que d'autres en ont des dizaines de milliers. Cette structure hétérogène rend les graphes clairsemés et irréguliers, très différents des grilles d'images lisses ou des séquences de texte sur lesquelles fonctionnent de nombreux modèles d'IA.

Le benchmark Graph500 se concentre sur la recherche en largeur. Ce processus explore systématiquement chaque sommet et chaque arête d'un graphe, couche par couche, aussi rapidement que possible. Les performances sont mesurées en nombre d'arêtes parcourues par seconde.

Un score Graph500 élevé indique qu'un système possède :

  • Interconnexions très rapides entre les nœuds
  • Bande passante mémoire élevée
  • Un logiciel bien conçu capable de maintenir tout ce matériel en activité.

Il s'agit essentiellement d'un moyen de tester la rapidité avec laquelle un ordinateur peut relier des données connexes à grande échelle. C'est important non seulement pour les simulations scientifiques, mais aussi pour tout ce qui nécessite de connecter des utilisateurs, du contenu, des transactions ou des événements en temps réel. Ces mêmes capacités prennent une importance croissante dans les systèmes de jeux modernes, les moteurs de recommandation et les grandes infrastructures multijoueurs.

Réinventer le traitement de graphes sur GPU

Traditionnellement, les calculs sur les graphes de grande taille et l'algèbre linéaire creuse s'appuient sur de grands clusters de processeurs. Lorsque les graphes atteignent des milliards d'arêtes, les processeurs passent beaucoup de temps à déplacer les données entre les nœuds, ce qui devient un goulot d'étranglement.

Les développeurs ont utilisé des techniques comme les messages actifs pour optimiser ce processus. Au lieu de déplacer les données, on envoie de petits messages qui effectuent des tâches directement sur le serveur de données. Cela améliore la situation, mais sur les systèmes classiques, ces messages actifs s'exécutent toujours sur le processeur, ce qui limite le débit et l'évolutivité.

La performance record de NVIDIA repose sur une approche très différente. L'équipe a conçu de A à Z une solution complète axée sur le GPU, en utilisant :

  • GPU NVIDIA H100 pour le traitement parallèle massif et la bande passante mémoire
  • La plateforme CUDA et le modèle de programmation NVSHMEM
  • Le réseau Spectrum X et InfiniBand GPUDirect Async, connu sous le nom d'IBGDA, permettent aux GPU de communiquer directement avec le réseau.

Avec IBGDA, les GPU n'ont plus besoin d'attendre que les CPU gèrent le trafic réseau. Ils peuvent désormais envoyer et recevoir des messages actifs directement via le réseau InfiniBand. NVIDIA a repensé l'agrégation et la communication des messages afin que des centaines de milliers de threads GPU puissent envoyer des messages actifs simultanément, contre quelques centaines seulement sur les systèmes utilisant uniquement un CPU.

Il en résulte que l'intégralité de la couche de messagerie active s'exécute sur les GPU. Les messages sont créés, envoyés, reçus et traités directement dans la mémoire GPU, sans intervention du CPU sur le chemin critique. Cette architecture exploite pleinement le parallélisme des GPU H100 et la vitesse des réseaux modernes optimisés pour les GPU.

S'appuyant sur l'infrastructure de CoreWeave, cette architecture a plus que doublé les performances des exécutions Graph500 comparables, tout en utilisant un nombre de nœuds et un coût considérablement réduits. Elle illustre parfaitement ce qu'une pile de GPU bien intégrée, un réseau rapide et un logiciel optimisé peuvent accomplir lorsque tous les éléments sont conçus pour fonctionner ensemble.

Pourquoi cela est important pour l'avenir de l'informatique et des jeux vidéo

À première vue, un benchmark graphique peut sembler un sujet de niche relevant du calcul haute performance. Mais ses implications vont bien au-delà, touchant à l'IA, aux services cloud et, à terme, aux applications grand public comme les jeux vidéo.

De nombreux domaines du calcul haute performance, tels que la dynamique des fluides et les prévisions météorologiques, reposent sur des structures de données éparses et des schémas de communication similaires à ceux testés par Graph500. Pendant des décennies, ces charges de travail ont été principalement assurées par des systèmes à base de processeurs. Le premier résultat de NVIDIA sur Graph500, ainsi que deux autres performances dans le top 10, démontrent que les GPU peuvent désormais gérer efficacement ces charges de travail massives et irrégulières.

Pour l'écosystème technologique et vidéoludique au sens large, cela annonce un avenir où les clusters de GPU disponibles sur le marché pourront alimenter des simulations de grande envergure, des analyses en temps réel et des modèles d'IA complexes à forte intensité de graphes, permettant ainsi des expériences de nouvelle génération. Grâce à l'accessibilité accrue de ces clusters équipés de GPU, rendue possible par des fournisseurs de cloud comme CoreWeave, les studios et les développeurs pourront bénéficier de performances dignes d'un supercalculateur sans avoir à déployer leurs propres infrastructures sur site.

En résumé, ce record est bien plus qu'un simple trophée. Il prouve que les architectures centrées sur le GPU évoluent au-delà de l'entraînement intensif de l'IA pour s'adapter aux charges de travail complexes et irrégulières qui sous-tendent de nombreuses applications modernes. Cette évolution ouvrira de nouvelles perspectives, des systèmes de recommandation et outils de sécurité aux mondes en ligne à grande échelle et à la logique de jeux fonctionnant dans le cloud.

Article et image originaux : https://blogs.nvidia.com/blog/h100-coreweave-graph500/

Panier 0

Votre carte est actuellement vide.

Commencer à magasiner