Comment les usines d'IA optimisées par NVIDIA contribuent à stabiliser

Les usines d'IA rencontrent le réseau électrique

Imaginez des millions de personnes au Royaume-Uni se levant toutes à la mi-temps d'un grand match de football pour allumer leur bouilloire au même moment. C'est exactement ce qui s'est passé lors du match UEFA EURO 2020 entre l'Angleterre et l'Allemagne. Le résultat a été un pic soudain d'environ 1 gigawatt de demande de puissance sur le réseau national, ce qui correspond à la production moyenne d'un réacteur nucléaire standard.

Des événements comme celui-ci sont un cauchemar pour les opérateurs de réseau. Ils doivent maintenir le système électrique stable même lorsque la demande augmente en quelques secondes. Traditionnellement, cela signifie surconstruire l'infrastructure électrique afin qu'il y ait toujours suffisamment de capacité pour gérer le pire pic. Cette approche est lente et extrêmement coûteuse.

Aujourd'hui, un nouveau type de client apparaît sur le réseau : des usines d'IA massives, remplies de GPU et de serveurs haute performance. À première vue, ces centres de données ressemblent à un autre énorme fardeau pour le réseau. Mais un projet impliquant Emerald AI, NVIDIA, EPRI, National Grid et Nebius est en train de bouleverser cette idée. Au lieu d'être un problème, ces usines d'IA peuvent en fait aider à stabiliser le réseau en ajustant intelligemment leur consommation d'énergie en temps réel.

Au cœur d'une usine d'IA à puissance flexible

Emerald AI a construit une plateforme appelée Emerald AI Conductor qui transforme les grands centres de données d'IA en ce qu'ils appellent des usines d'IA à puissance flexible. L'idée est simple. Lorsque le réseau est sous contrainte, l'usine d'IA réduit automatiquement sa consommation d'énergie de manière contrôlée. Lorsque le réseau est stable, elle fonctionne normalement à pleine vitesse.

Pour le prouver, l'équipe a déployé la plateforme Emerald AI Conductor dans la nouvelle usine d'IA de Nebius à Londres, qui est construite sur l'infrastructure NVIDIA. Ce site est l'un des premiers du genre au Royaume-Uni et constitue une excellente vitrine de la manière dont l'informatique moderne, gourmande en GPU, peut interagir intelligemment avec le système énergétique.

Sous le capot, l'usine d'IA exécute des charges de travail d'IA de qualité production sur un cluster de 96 GPU NVIDIA Blackwell Ultra. Ceux-ci sont connectés via le réseau NVIDIA Quantum X800 InfiniBand et surveillés à l'aide de l'interface de gestion système NVIDIA, qui fournit des données de télémétrie seconde par seconde sur l'utilisation de l'énergie des GPU. Ces données détaillées sont cruciales car elles permettent à la plateforme Conductor de réagir très rapidement et précisément aux conditions changeantes du réseau.

EPRI et National Grid ont ensuite simulé des scénarios de stress réels sur le réseau électrique. Ceux-ci allaient des coups de foudre aux longues périodes de faible production éolienne. Lors de chaque test, la simulation du réseau a envoyé des signaux à l'usine d'IA lui disant de réduire ou d'ajuster sa consommation d'énergie. L'Emerald AI Conductor a réagi automatiquement, modifiant la façon dont les charges de travail étaient planifiées et la quantité d'énergie utilisée par le cluster.

L'un des tests les plus intéressants a été la recréation de l'effet de "pic de consommation" dû à la télévision au Royaume-Uni, le type de surtension qui se produit lorsque des millions de personnes allument simultanément leur bouilloire pendant une pause lors d'un événement majeur. Dans cette simulation, alors que les bouilloires fictives commençaient à s'allumer, le cluster d'IA a réduit sa consommation d'énergie, agissant comme un amortisseur pour le réseau.

Il est crucial de noter que cela n'a pas signifié l'arrêt de tout le calcul. Les tâches d'IA à haute priorité ont continué à fonctionner à pleine performance, tandis que les tâches à faible priorité ou plus flexibles ont été temporairement ralenties. Cela rend la configuration pratique pour les opérations d'IA réelles où la disponibilité et le débit des services clés sont essentiels.

Résultats des performances et pourquoi c'est important

La démonstration de Londres a donné de solides résultats. Emerald AI a signalé un alignement de cent pour cent avec plus de deux cents objectifs de puissance différents que l'EPRI et National Grid ont envoyés pendant les expériences. En clair, chaque fois que le réseau demandait à l'usine d'IA d'atteindre un certain niveau de puissance, le système s'y conformait.

Les tests comprenaient vingt-deux événements de répartition en temps réel où le réseau demandait effectivement au centre de données d'ajuster sa consommation d'énergie à la volée. Dans certains cas, l'usine d'IA a pu réduire sa consommation d'environ trente pour cent en moins de quarante secondes. Pour les opérateurs de réseau, ce type de réactivité est incroyablement précieux. Cela signifie qu'ils peuvent gérer les fluctuations soudaines de la demande sans nécessairement démarrer des centrales de pointe supplémentaires ou construire de nouvelles infrastructures à long terme.

Steve Smith, directeur de la stratégie de groupe chez National Grid, a souligné un autre point important. Ces tests n'ont pas seulement surveillé la puissance des GPU de manière isolée. Ils ont inclus les CPU, les systèmes de support et la consommation totale d'énergie de l'équipement informatique. Cela donne une image réaliste de ce qui peut être contrôlé dans un déploiement réel et prouve la valeur plus large de l'approche.

Pour des villes comme Londres, où le réseau est déjà sous pression pour connecter de nouveaux gros consommateurs d'électricité, c'est un problème majeur. Les centres de données et les usines d'IA sont gourmands en électricité. Normalement, cela signifierait attendre des années des mises à niveau d'infrastructure avant de pouvoir fonctionner à grande échelle. Avec une conception à puissance flexible, ces usines d'IA peuvent se connecter plus rapidement au réseau existant car elles offrent quelque chose en retour : la flexibilité. Au lieu de toujours consommer la puissance maximale, elles aident à lisser la demande et à libérer de la marge de manœuvre lorsque le réseau en a vraiment besoin.

D'un point de vue technologique plus large, ce modèle change la façon dont nous concevons le calcul haute performance. Traditionnellement, l'énergie a été traitée comme un coût fixe et une contrainte fixe. Ici, elle devient dynamique. Les GPU et les CPU offrent toujours des performances massives pour les charges de travail d'IA, mais ils font partie d'un système intelligent plus vaste qui coopère avec le réseau énergétique.

Emerald AI et NVIDIA prévoient déjà de passer des démonstrations à des déploiements réels avec l'Aurora AI Factory en Virginie, qui devrait ouvrir cette année. Si cette approche s'étend, elle pourrait façonner la manière dont les futurs centres de données gourmands en GPU sont construits et alimentés dans le monde entier. Pour quiconque s'intéresse au calcul haute performance et à l'infrastructure moderne, c'est un signe de l'orientation de l'écosystème : du matériel d'IA puissant étroitement intégré à des systèmes énergétiques tout aussi intelligents.

Original article and image: https://blogs.nvidia.com/blog/power-flexible-ai-factories-energy-grid/

Comment les usines d'IA optimisées par NVIDIA contribuent à stabiliser le réseau électrique

Les usines d'IA rencontrent le réseau électrique

Au cœur d'une usine d'IA à puissance flexible

Résultats des performances et pourquoi c'est important

NVIDIA ouvre la gestion des ressources GPU pour les charges de travail d'IA Kubernetes