NVIDIA Blackwell Ultra GB300 NVL72 : un bond en avant considérable pou

Blackwell Ultra : repousser les limites des performances GPU

La plateforme Blackwell de NVIDIA est déjà reconnue pour sa puissance en matière d'inférence IA moderne, mais le nouveau système GB300 NVL72, basé sur Blackwell Ultra, repousse encore les limites. Bien que ce matériel soit principalement destiné aux centres de données et aux clouds d'IA plutôt qu'aux PC de jeu personnels, il représente néanmoins le nec plus ultra en matière de conception de GPU et de systèmes, influençant à terme le matériel grand public.

La plateforme Blackwell originale a été largement adoptée par les principaux fournisseurs de services d'inférence tels que Baseten, DeepInfra, Fireworks AI et Together AI. Ces entreprises utilisent Blackwell pour réduire le coût par jeton d'IA jusqu'à dix fois par rapport aux générations précédentes.

Le nouveau système GB300 NVL72, basé sur le GPU Blackwell Ultra, s'appuie sur ces avancées en améliorant considérablement les performances par watt et le coût par jeton. Ceci est particulièrement important pour deux usages de l'IA en forte croissance :

IA agentique qui effectue un raisonnement et des actions en plusieurs étapes
Assistants de codage IA fonctionnant sur d'immenses bases de code avec des fenêtres de contexte très longues

Ces charges de travail sont extrêmement exigeantes. Elles nécessitent une latence très faible pour que les interactions soient quasi instantanées, et doivent gérer d'importants volumes de données contextuelles lors de l'analyse de dépôts de code entiers. C'est là que le GB300 NVL72 excelle.

Débit, latence et coût : comment le GB300 NVL72 évolue

Une analyse indépendante démontre l'ampleur du bond en avant par rapport à la précédente plateforme Hopper de NVIDIA. Lorsque NVIDIA combine les avancées matérielles et les optimisations logicielles, les améliorations sont considérables.

Le système GB200 NVL72, basé sur les puces Blackwell précédentes, offrait déjà une efficacité énergétique plus de dix fois supérieure à celle de Hopper. Cela se traduisait par un coût par jeton environ dix fois inférieur. Les efforts continus des équipes de développement logiciel de NVIDIA TensorRT LLM, NVIDIA Dynamo, Mooncake et SGLang ont permis d'améliorer encore les performances de Blackwell, notamment pour les modèles combinant plusieurs experts, très répandus dans les grands modèles de langage.

En plus de ces gains, le GB300 NVL72 repousse encore davantage les limites :

Débit jusqu'à 50 fois supérieur par mégawatt à celui de Hopper

Ces chiffres résultent de l'optimisation à la fois du silicium et du logiciel. Voici quelques éléments techniques clés :

Noyaux GPU hautes performances optimisés pour l'efficacité et la faible latence
Mémoire symétrique NVIDIA NVLink pour un accès direct à la mémoire GPU à GPU sans passer par le processeur
Lancement dépendant du programme, qui commence la préparation du noyau suivant avant que le précédent ne soit entièrement terminé afin de réduire le temps d'inactivité

Tout cela signifie que pour les assistants d'IA agentifs en temps réel et les assistants de codage interactifs, le GB300 NVL72 peut servir beaucoup plus d'utilisateurs à moindre coût sans sacrifier la réactivité.

Pourquoi l'IA à contexte long adore le GB300 NVL72

L'un des problèmes les plus complexes de l'IA moderne est la gestion des contextes très longs. Pour les assistants de programmation ou les agents d'IA analysant des applications complètes, les fenêtres de contexte peuvent facilement atteindre 128 000 jetons d'entrée, auxquels s'ajoutent des milliers de jetons de sortie.

Les GB200 NVL72 et GB300 NVL72 offrent tous deux une latence ultra-faible pour ces charges de travail, mais le GB300 se distingue par ses performances supérieures lorsque le contexte s'élargit. Pour une charge de travail représentative utilisant 128 000 entrées et 8 000 sorties de jetons, le GB300 NVL72 affiche un coût par jeton jusqu'à 1,5 fois inférieur à celui du GB200 NVL72.

Le GPU Blackwell Ultra intégré au GB300 est spécialement conçu pour relever ce défi. Il offre environ :

Performances de calcul NVFP4 1,5 fois supérieures à celles de la puce Blackwell précédente
Traitement de l'attention deux fois plus rapide, qui est l'opération de base des modèles basés sur les transformateurs

À mesure qu'un agent d'IA analyse une partie du code source, la fenêtre de contexte s'élargit. Cela améliore la compréhension, mais exige également une puissance de calcul et une bande passante mémoire bien plus importantes. La densité de calcul et la vitesse d'attention accrues du GB300 lui permettent de traiter efficacement ces contextes gigantesques, offrant ainsi des assistants de programmation plus performants, capables de raisonner sur des dépôts de code entiers.

Déploiement dans le cloud et la route vers Rubin

Les principaux fournisseurs de cloud déploient déjà ces systèmes. Microsoft Azure, CoreWeave et Oracle Cloud Infrastructure mettent en place des clusters GB300 NVL72 pour les charges de travail d'IA à faible latence et à contexte long, telles que le codage agentiel et les assistants de codage avancés.

Pour ces fournisseurs, l'attrait est simple :

Des coûts de jetons plus faibles leur permettent de proposer des services d'IA plus performants à des prix plus avantageux.
Un meilleur rendement par watt permet de mieux maîtriser les budgets énergétiques et de refroidissement des centres de données.
De meilleures performances en contexte long permettent de débloquer de nouvelles applications d'IA qui étaient auparavant trop coûteuses ou trop lentes.

CoreWeave souligne notamment que, l'inférence étant devenue centrale dans la production d'IA, les performances en contexte long et l'efficacité des jetons sont désormais des indicateurs clés. Leur cloud d'IA est conçu pour transformer les gains bruts des GB200 et GB300 en performances prévisibles et en rentabilité pour les clients exécutant des charges de travail à grande échelle.

NVIDIA ne s'arrête pas à Blackwell et Blackwell Ultra. Sa nouvelle plateforme, Rubin, représente une avancée majeure. Rubin intègre six nouvelles puces dans un supercalculateur d'IA unique. NVIDIA affirme que pour l'inférence multi-experts, Rubin offrira les performances suivantes :

Débit jusqu'à 10 fois supérieur par mégawatt à celui de Blackwell

Pour l'entraînement des modèles de pointe de nouvelle génération, Rubin prévoit d'utiliser quatre fois moins de GPU que Blackwell pour entraîner de grands modèles de mélange d'experts. Cela permettra de réduire encore les coûts d'infrastructure pour les entreprises à la pointe de l'IA.

Pour les passionnés de matériel informatique et les joueurs, ces plateformes dépassent largement le cadre d'une utilisation sur ordinateur de bureau. Cependant, les mêmes concepts architecturaux et optimisations logicielles se retrouvent souvent dans les futurs GPU grand public. Des fonctionnalités telles que de meilleures interconnexions mémoire, une planification du noyau plus intelligente et un calcul basse précision plus efficace peuvent à terme améliorer les performances de jeu, les fonctionnalités d'IA intégrées aux jeux et les outils d'IA locaux exécutés sur les cartes graphiques grand public.

Article et image originaux : https://blogs.nvidia.com/blog/data-blackwell-ultra-performance-lower-cost-agentic-ai/

Série Nova

Série Nova

NVIDIA Blackwell Ultra GB300 NVL72 : un bond en avant considérable pour les performances et l’efficacité de l’IA

Blackwell Ultra : repousser les limites des performances GPU

Débit, latence et coût : comment le GB300 NVL72 évolue

Pourquoi l'IA à contexte long adore le GB300 NVL72

Déploiement dans le cloud et la route vers Rubin

GeForce NOW débarque sur Amazon Fire TV : le cloud gaming sur grand écran