L’explosion des données liées à l’IA et les difficultés rencontrées par le stockage
L'IA est avide de données. D'ici 2028, les entreprises devraient générer près de 400 zettaoctets de données par an. De plus, environ 90 % de ces nouvelles données sont non structurées : fichiers audio, vidéo, images, PDF et journaux d'événements, plutôt que des lignes bien ordonnées dans une base de données.
Ces données non structurées sont précisément ce qui alimente les modèles d'IA modernes, des grands modèles de langage aux moteurs de recommandation en passant par les systèmes de vision. Mais l'acheminement de toutes ces données vers des milliers de GPU devient un goulot d'étranglement majeur.
Le stockage objet traditionnel basé sur l'API S3 a longtemps été la solution privilégiée pour un stockage économique et évolutif. Il est idéal pour l'archivage, les sauvegardes, les lacs de données et les journaux d'analyse. Son principal inconvénient réside dans ses performances. Le stockage objet sur un réseau TCP standard est généralement trop lent et trop peu efficace pour l'entraînement et l'inférence de l'IA à grande échelle, qui nécessitent un flux de données constant sur les GPU.
De plus, les entreprises souhaitent que leurs infrastructures de données et d'IA soient portables. Elles veulent pouvoir exécuter des charges de travail aussi bien dans leurs propres centres de données que dans des environnements cloud ou néo-cloud sans avoir à tout réécrire. Cela implique d'utiliser une API de stockage courante comme S3, mais avec des performances nettement supérieures.
C’est là qu’intervient RDMA pour le stockage compatible S3.
Que fait réellement RDMA pour le stockage compatible S3 ?
RDMA signifie « accès direct à la mémoire à distance ». Il s'agit d'une technologie réseau permettant à un ordinateur de lire ou d'écrire directement dans la mémoire principale d'un autre ordinateur, en court-circuitant autant que possible le processeur. Cela réduit la latence et la charge du processeur, ce qui est idéal lorsque des cartes graphiques attendent des données.
NVIDIA a introduit RDMA dans l'univers du stockage objet compatible S3. Au lieu d'utiliser le chemin TCP habituel, les transferts de données entre les nœuds de calcul et les nœuds de stockage utilisent RDMA en interne, tout en conservant une API S3 familière au niveau applicatif.
En termes simples, vous continuez à parler de S3, mais les données elles-mêmes circulent beaucoup plus rapidement et plus efficacement.
Cette approche offre plusieurs avantages indéniables pour les environnements à forte intensité d'IA :
- Débit plus élevé par téraoctet : davantage de données peuvent être lues et écrites à partir de chaque unité de capacité de stockage.
- Un débit plus élevé par watt : le matériel réseau et de stockage permet d'effectuer plus de travail avec la même consommation d'énergie, ce qui est important à l'échelle d'une usine d'IA.
- Coût par téraoctet réduit : grâce à l’augmentation des performances, vous pouvez souvent en faire plus avec la même infrastructure et réduire les coûts de stockage pour les projets d’IA.
- La latence étant bien inférieure à celle du protocole TCP, les GPU passent moins de temps à attendre l'arrivée des données, ce qui améliore leur utilisation globale.
- Utilisation réduite du processeur : comme RDMA contourne la plupart des interventions du processeur dans le transfert de données, les cœurs du processeur sont libérés pour exécuter des frameworks d’IA, l’orchestration et d’autres services au lieu de simplement traiter des données.
NVIDIA fournit des bibliothèques client et serveur RDMA compatibles avec les systèmes de stockage objet existants. Les fournisseurs de stockage intègrent les bibliothèques serveur à leurs produits, permettant ainsi un accès accéléré compatible S3. Les bibliothèques client s'exécutent sur des nœuds de calcul GPU, ce qui permet aux applications d'IA d'extraire des données du stockage objet beaucoup plus rapidement qu'avec le protocole TCP standard.
Bien que l'implémentation initiale soit optimisée pour les GPU et le réseau NVIDIA, sa conception est ouverte. D'autres fournisseurs et clients peuvent contribuer aux bibliothèques, les intégrer à leurs propres solutions ou développer des logiciels personnalisés utilisant les API compatibles RDMA pour S3.
Cette ouverture est importante car elle favorise un écosystème plus vaste. Elle facilite la prise en charge du stockage objet haute vitesse par les outils, les frameworks et les plateformes, sans pour autant les contraindre à adopter une solution propriétaire unique.
Normalisation et qui assure la livraison
Pour que cette technologie ait un réel impact, elle doit devenir une norme adoptée par de nombreux fournisseurs, et non une astuce exclusive à un seul. NVIDIA collabore avec des partenaires pour promouvoir la standardisation et la large diffusion de la technologie RDMA pour le stockage compatible S3.
Plusieurs grands acteurs du stockage d'objets ont déjà adopté et intègrent les bibliothèques basées sur RDMA dans leurs produits :
- Cloudian HyperStore positionne le stockage objet comme l'avenir de la gestion évolutive des données pour l'IA et collabore avec NVIDIA pour standardiser RDMA pour le stockage compatible S3. L'objectif est d'améliorer les performances et l'efficacité tout en conservant une compatibilité S3 totale, afin que des milliers d'applications et d'outils existants puissent en bénéficier sans refonte majeure.
- Dell ObjectScale, fruit d'une collaboration avec NVIDIA, intègre l'accélération RDMA. Cette intégration permet une prise en charge complète de RDMA pour le stockage objet, ciblant les environnements où des milliers de GPU lisent et écrivent des données simultanément. La dernière version du logiciel ObjectScale vise à constituer une couche de stockage centrale pour les plateformes et les centres de données dédiés à l'IA.
- HPE a intégré la technologie RDMA pour le stockage compatible S3 à son système Alletra Storage MP X10000. Selon HPE, cette configuration accélère le débit, réduit la latence et diminue le coût total de possession pour les charges de travail non structurées et pilotées par l'IA.
Ce soutien précoce des fournisseurs montre que le stockage d'objets accéléré par RDMA n'est pas qu'une simple expérience de laboratoire. Il est désormais intégré à des produits concrets que les entreprises peuvent déployer sur site ou connecter à leur infrastructure d'IA dans le cloud.
NVIDIA intègre également ce travail à son écosystème. Les bibliothèques de stockage compatibles RDMA pour S3 sont disponibles dès aujourd'hui pour certains partenaires et devraient être accessibles à tous via le kit de développement NVIDIA CUDA. Cela simplifie l'expérimentation et l'adoption de cette technologie pour les développeurs et les fournisseurs de plateformes qui utilisent déjà CUDA.
Parallèlement, NVIDIA lance une certification de stockage objet dans le cadre de son programme NVIDIA Certified Storage. Cette certification vise à garantir aux clients qu'une solution de stockage est parfaitement compatible avec les environnements d'IA basés sur NVIDIA et qu'elle offre les performances requises par les charges de travail d'IA.
Pour les équipes qui développent des plateformes d'IA ou qui mettent à l'échelle l'IA générative, le principal enseignement est que le stockage objet évolue. Grâce à RDMA pour le stockage compatible S3, vous bénéficiez de l'évolutivité et de la portabilité des stockages objet de type S3, ainsi que de la vitesse et de l'efficacité nécessaires pour maintenir les clusters GPU pleinement actifs, sans attente de données.
Article et image originaux : https://blogs.nvidia.com/blog/s3-compatible-ai-storage/
