Pourquoi le pilote DRA de NVIDIA est important pour l'IA moderne et les GPU
L'intelligence artificielle est devenue l'une des charges de travail les plus exigeantes en informatique, et la plupart des systèmes d'IA à grande échelle fonctionnent aujourd'hui sur Kubernetes. Kubernetes est la plateforme open source qui automatise le déploiement, la mise à l'échelle et la gestion des applications conteneurisées dans le cloud ou dans les centres de données.
Pour l'IA, le véritable travail intensif est effectué par les GPU. La gestion efficace de ces GPU à travers les clusters a généralement impliqué de s'appuyer sur des outils spécifiques au fournisseur. NVIDIA est en train de changer cela en faisant don de son pilote DRA (Dynamic Resource Allocation) pour les GPU à la Cloud Native Computing Foundation, le foyer de Kubernetes.
Ce don fait passer le pilote d'un projet contrôlé par NVIDIA à une pleine propriété communautaire sous l'égide de Kubernetes. Cela signifie qu'un groupe plus large de développeurs et d'opérateurs peut contribuer, examiner et faire évoluer la manière dont les ressources GPU sont gérées pour les charges de travail d'IA.
Pour toute personne intéressée par les charges de travail basées sur les GPU, les back-ends de jeux dans le cloud ou les clusters de calcul haute performance, cette initiative contribue à rendre l'orchestration des GPU plus standard, transparente et plus facile à adopter.
Ce que le pilote DRA de NVIDIA apporte aux clusters GPU
Le pilote DRA de NVIDIA se concentre sur une utilisation plus intelligente et plus flexible des ressources GPU dans les environnements Kubernetes. Au lieu de traiter chaque GPU comme un simple appareil activé ou désactivé, il permet aux opérateurs et aux développeurs de décrire exactement ce dont ils ont besoin et à Kubernetes de planifier ces ressources intelligemment à travers un cluster.
Les principaux avantages sont les suivants :
- Efficacité améliorée Le pilote prend en charge les technologies NVIDIA Multi Process Service et Multi Instance GPU. Celles-ci permettent de partager en toute sécurité un seul GPU physique entre plusieurs charges de travail ou de le diviser en instances GPU plus petites. Cela conduit à une utilisation plus élevée, ce qui est essentiel lorsque les GPU sont chers et très demandés.
- Mise à l'échelle massive Le pilote prend en charge la technologie d'interconnexion NVLink multi-nœuds. NVLink connecte les GPU entre les nœuds afin qu'ils se comportent davantage comme un seul pool de GPU massif. C'est important pour l'entraînement de modèles d'IA énormes sur les systèmes basés sur NVIDIA Grace Blackwell et d'autres plateformes GPU de nouvelle génération.
- Flexibilité Les développeurs peuvent reconfigurer dynamiquement la présentation du matériel. Les allocations de ressources peuvent être ajustées à la volée à mesure que les charges de travail changent, sans qu'il soit nécessaire de reconstruire l'ensemble du cluster.
- Précision Le logiciel permet aux utilisateurs de demander des combinaisons détaillées de puissance de calcul, de taille de mémoire et de configuration d'interconnexion. C'est particulièrement utile pour les configurations d'entraînement et d'inférence d'IA avancées où des topologies spécifiques sont plus performantes.
Tout cela est intégré directement à Kubernetes en amont. Au lieu de s'appuyer sur des planificateurs spécifiques aux fournisseurs, les opérateurs peuvent utiliser les concepts standard de Kubernetes tout en profitant des fonctionnalités GPU de NVIDIA.
Sécurité, isolation et nouveaux outils open source
Au-delà du pilote DRA, NVIDIA pousse également l'accélération matérielle plus loin dans des environnements sécurisés et isolés. En collaboration avec la communauté Confidential Containers, NVIDIA a ajouté le support GPU pour Kata Containers, qui sont des machines virtuelles légères qui se comportent comme des conteneurs.
Avec Kata Containers et le support GPU, les charges de travail d'IA peuvent fonctionner avec une isolation plus forte entre les locataires ou les services. C'est utile pour les scénarios où l'informatique confidentielle et les exigences strictes de protection des données s'appliquent, mais où les utilisateurs souhaitent toujours une accélération GPU rapide.
NVIDIA collabore avec un large éventail de fournisseurs de cloud et de plateformes pour faire avancer ces technologies, notamment Amazon Web Services, Broadcom, Canonical, Google Cloud, Microsoft, Nutanix, Red Hat et SUSE. L'objectif commun est de normaliser les composants d'infrastructure haute performance afin que les entreprises puissent exécuter plus facilement l'IA de production, quel que soit le fournisseur qu'elles choisissent.
Cette initiative s'inscrit dans une vague plus large d'activités open source de NVIDIA. Les projets récemment annoncés incluent :
- NVSentinel Un système de remédiation des pannes de GPU qui aide à maintenir les clusters GPU sains et réactifs.
- AI Cluster Runtime Un framework d'IA basé sur des agents visant à gérer des systèmes d'IA complexes fonctionnant sur des clusters.
- NVIDIA NemoClaw Une pile de référence axée sur les agents autonomes.
- NVIDIA OpenShell Un runtime pour l'exécution sécurisée d'agents autonomes avec une politique granulaire, s'intégrant à Linux, eBPF et Kubernetes.
NVIDIA a également intégré son planificateur de charge de travail d'IA haute performance, le KAI Scheduler, en tant que projet CNCF Sandbox. Cela invite la communauté cloud native au sens large à expérimenter et à améliorer la manière dont les grandes tâches d'IA sont mises en file d'attente et planifiées à travers des clusters de nœuds GPU.
De plus, NVIDIA étend l'écosystème autour de son framework Dynamo. Le projet Grove fournit une API Kubernetes pour orchestrer les charges de travail d'IA sur les clusters GPU. Il permet aux développeurs de décrire des systèmes d'inférence complexes dans une seule ressource déclarative et est intégré à la pile d'inférence llm d pour une utilisation plus large.
Toutes ces pièces partagent le même thème. Au lieu de conserver les outils d'infrastructure d'IA enfermés derrière des systèmes propriétaires, NVIDIA les expose de plus en plus sous forme de projets open source qui vivent dans le monde de Kubernetes et de la CNCF.
Ce que cela signifie pour les développeurs et les charges de travail axées sur les GPU
Pour les développeurs et les opérateurs soucieux des GPU et des performances, ce changement a plusieurs impacts pratiques.
- Outils plus standardisés La gestion des ressources GPU dans les clusters Kubernetes devient plus cohérente. Le pilote DRA et les projets associés vivent en amont, ce qui les rend plus faciles à adopter sur les clouds et les clusters sur site.
- Meilleure utilisation Grâce à des fonctionnalités comme Multi Process Service, Multi Instance GPU et NVLink multi-nœuds, les clusters peuvent tirer plus de travail de chaque carte GPU, ce qui peut réduire le coût par charge de travail.
- Isolation renforcée Les Kata Containers compatibles GPU et le support du calcul confidentiel aident les organisations à exécuter des charges de travail d'IA sensibles avec une meilleure séparation entre les locataires et les services.
- Innovation plus rapide À mesure que davantage d'organisations et de chercheurs contribuent à ces projets ouverts, le rythme des améliorations pour l'infrastructure d'IA sur les GPU devrait s'accélérer.
Les développeurs et les organisations peuvent déjà essayer le pilote DRA de NVIDIA et les projets connexes à partir de leurs référentiels publics. Pour les équipes qui créent des services d'IA ou à forte intensité de GPU, qu'il s'agisse d'inférence de modèles de langage volumineux, de calcul scientifique ou du back-end de plateformes de jeux dans le cloud, ces outils open source offrent une voie plus claire pour exécuter efficacement et en toute sécurité ces charges de travail à grande échelle sur Kubernetes.
Article et image originaux : https://blogs.nvidia.com/blog/nvidia-at-kubecon-2026/