Ignorer et passer au contenu
NVIDIA Blackwell Ultra bat des records dans les benchmarks d'IA

NVIDIA Blackwell Ultra bat des records dans les benchmarks d'IA

NVIDIA Blackwell Ultra a établi de nouveaux records lors des tests d'inférence MLPerf, affichant des performances exceptionnelles pour les charges de travail d'IA. L'inférence est un élément clé de la rapidité avec laquelle les systèmes d'intelligence artificielle effectuent des prédictions et prennent des décisions. Plus la vitesse d'inférence est élevée, plus un système d'IA peut traiter l'information efficacement, ce qui se traduit par des bénéfices plus élevés et des coûts réduits pour les organisations utilisant ces technologies.

Le système NVIDIA GB300 NVL72, qui utilise la nouvelle architecture Blackwell Ultra, a été testé sur le benchmark MLPerf Inference v5.1. Il a affiché des performances jusqu'à 45 % supérieures sur les tâches DeepSeek-R1 par rapport à l'ancien système GB200 NVL72. Blackwell Ultra améliore l'architecture Blackwell précédente en offrant une puissance de traitement IA multipliée par 2,5 et une vitesse doublée pour les couches d'attention. Chaque GPU prend désormais en charge jusqu'à 288 Go de mémoire, permettant ainsi de gérer des modèles plus volumineux et plus complexes.

NVIDIA a également enregistré les meilleurs scores lors de plusieurs nouveaux tests de centres de données, notamment DeepSeek-R1, Llama 3.1 405B Interactive, Llama 3.1 8B et Whisper. La société conserve sa position de leader en termes de performances par GPU dans toutes les catégories de centres de données MLPerf.

Ces performances sont le fruit d'une combinaison de matériel avancé et de conception logicielle intelligente. Blackwell Ultra prend en charge NVFP4, un nouveau format de données créé par NVIDIA, qui offre des vitesses plus élevées et une précision accrue par rapport à d'autres formats similaires. Le logiciel TensorRT Model Optimizer et la bibliothèque TensorRT-LLM de NVIDIA ont permis d'améliorer des modèles célèbres comme DeepSeek-R1 et la série Llama pour une utilisation sur ce nouveau format, ce qui se traduit par de meilleures performances sans perte de précision.

Les grands modèles de langage utilisent deux charges de travail principales. L'une gère la saisie utilisateur initiale et crée la première partie de la réponse, tandis que l'autre génère le reste. NVIDIA utilise une méthode appelée « désagrégation », qui sépare ces deux tâches afin de faciliter leur amélioration. Cette méthode a permis de quasiment doubler les performances par GPU lors de certains tests.

NVIDIA a également présenté pour la première fois son framework d'inférence Dynamo lors de ces tests. De grandes entreprises technologiques et des universités ont utilisé les plateformes Blackwell et Hopper de NVIDIA dans leurs propres tests, témoignant ainsi d'un large soutien du secteur. Ainsi, les organisations qui utilisent la technologie NVIDIA des fournisseurs de cloud ou des fabricants de serveurs obtiennent de meilleurs résultats et réalisent des économies.

Pour en savoir plus, vous pouvez lire l'article détaillé sur le blog technique NVIDIA ou visiter NVIDIA DGX Cloud Performance Explorer pour voir les détails des performances et créer des rapports personnalisés.

Article et image originaux : https://blogs.nvidia.com/blog/mlperf-inference-blackwell-ultra/

Panier 0

Votre carte est actuellement vide.

Commencer à magasiner