NVIDIA Nemotron 3 Super : un nouveau modèle ouvert pour les charges de

Qu'est-ce que NVIDIA Nemotron 3 Super ?

NVIDIA a lancé Nemotron 3 Super, un nouveau modèle ouvert et puissant conçu pour gérer des tâches d'IA très vastes et complexes. Il possède 120 milliards de paramètres au total, dont 12 milliards sont actifs lors de l'inférence, ce qui en fait un choix extrêmement efficace pour les systèmes d'IA multi-agents devant traiter des flux de travail de longue durée.

Nemotron 3 Super se concentre sur le raisonnement avancé, la précision et la rapidité pour les agents autonomes. Déjà utilisé dans des produits et plateformes réels, des moteurs de recherche IA aux outils d'analyse de code en passant par les logiciels d'entreprise, il est prêt pour un déploiement pratique et n'est pas qu'un simple projet de recherche.

L'un des concepts clés de Nemotron 3 Super est de prendre en charge la nouvelle génération d'applications qui vont bien au-delà des simples chatbots. Ces applications utilisent plusieurs agents qui communiquent entre eux, font appel à des outils et gèrent des tâches de longue durée telles que le développement logiciel, la recherche approfondie ou l'analyse financière complexe.

Pourquoi les systèmes multi-agents ont besoin de modèles comme Nemotron 3 Super

Lorsque les entreprises commencent à construire des systèmes multi-agents, elles se heurtent rapidement à deux défis majeurs : l’explosion du contexte et la charge cognitive.

L'explosion du contexte se produit car chaque agent du système a besoin d'accéder à l'historique complet de la conversation et aux outils utilisés. Chaque étape nécessite souvent le renvoi d'une quantité croissante de texte, de journaux et de résultats intermédiaires. Des études ont montré que cela peut générer jusqu'à quinze fois plus de jetons qu'une conversation classique, ce qui augmente les coûts et peut entraîner une perte de vue de l'objectif initial.

Le problème de la complexité cognitive apparaît lorsque les développeurs tentent d'utiliser des modèles très volumineux pour chaque sous-tâche. Si le système doit solliciter un modèle complexe à plusieurs reprises pour des étapes simples, l'ensemble du flux de travail devient lent et coûteux. Il devient alors difficile de déployer des applications multi-agents en production.

Nemotron 3 Super s'attaque à ces deux problèmes. Il offre une fenêtre de contexte d'un million de jetons, permettant aux agents de conserver l'intégralité du flux de travail en mémoire. Ceci contribue à prévenir la dérive des objectifs, car le système n'a pas besoin de constamment tronquer ou régénérer le contexte. Parallèlement, l'architecture du modèle est optimisée pour une efficacité maximale, permettant ainsi aux développeurs d'exécuter des raisonnements complexes sans dépasser leur budget.

Ce modèle se classe déjà en tête du classement d'analyse artificielle grâce à son excellent compromis entre efficacité, ouverture et précision, parmi les modèles de taille similaire. Il alimente également l'agent de recherche NVIDIA AI Q, qui occupe la première place des benchmarks DeepResearch Bench et DeepResearch Bench II. Ces benchmarks évaluent la capacité d'un système d'IA à effectuer des recherches en plusieurs étapes sur de vastes corpus documentaires, tout en conservant cohérence et précision.

À l'intérieur de l'architecture hybride

Nemotron 3 Super utilise une architecture hybride combinant plusieurs innovations pour optimiser la vitesse et la précision.

Les couches Mamba sont utilisées pour optimiser la mémoire et les calculs. Elles permettent d'obtenir une efficacité environ quatre fois supérieure aux approches standard, ce qui est crucial lors de la manipulation d'une fenêtre de contexte d'un million de jetons.
Les couches de transformation prennent en charge les tâches complexes de raisonnement avancé et de compréhension du langage, permettant ainsi au modèle de rester compétitif sur des tâches complexes.
La combinaison d'experts implique que seulement 12 milliards des 120 milliards de paramètres sont actifs simultanément lors de l'inférence. Cela permet au modèle de conserver une grande capacité tout en maîtrisant les coûts d'exécution.
Le mélange latent d'experts est une nouvelle méthode qui permet d'activer efficacement quatre spécialistes pour le coût d'un seul lors de la génération du jeton suivant. Cela améliore la précision tout en maîtrisant les ressources de calcul.
La prédiction multi-jetons permet au modèle de prédire plusieurs mots futurs simultanément, au lieu d'un seul à la fois. Cela peut rendre l'inférence jusqu'à trois fois plus rapide en conditions réelles.

Sur les plateformes NVIDIA Blackwell, le modèle s'exécute en précision NVFP4, ce qui réduit considérablement les besoins en mémoire et permet une inférence jusqu'à quatre fois plus rapide qu'avec les GPU NVIDIA Hopper de génération précédente en FP8, sans perte de précision. Cette architecture et ce matériel sont conçus pour les environnements à très haut débit.

Poids ouverts, données d'entraînement et applications concrètes

NVIDIA lance Nemotron 3 Super avec des poids libres sous une licence permissive. Les développeurs peuvent le déployer et le personnaliser sur des stations de travail, dans leurs propres centres de données ou dans le cloud. Cette ouverture ne se limite pas aux poids : l’entreprise partage également l’intégralité de sa méthodologie d’entraînement.

Le modèle a été entraîné sur des données synthétiques générées à l'aide de modèles de raisonnement robustes. NVIDIA met à disposition plus de dix mille milliards de jetons de données pré- et post-entraînement, ainsi que quinze environnements d'apprentissage par renforcement et des protocoles d'évaluation. Les chercheurs souhaitant adapter le modèle peuvent utiliser la plateforme NVIDIA NeMo pour l'optimiser ou même créer leurs propres modèles à l'aide de techniques similaires.

Nemotron 3 Super est conçu spécifiquement pour être utilisé au sein de systèmes multi-agents où il peut gérer des sous-tâches complexes :

En développement logiciel, un agent peut charger l'intégralité d'une base de code en une seule opération, permettant ainsi une génération et un débogage complets du code de bout en bout sans avoir à découper le projet en de nombreux petits morceaux.
En finance, ce modèle permet de contextualiser des milliers de pages de rapports, évitant ainsi les raisonnements répétitifs et accélérant les longs processus analytiques.
En matière de cybersécurité, il offre une grande précision dans l'appel d'outils, permettant ainsi aux agents autonomes de naviguer en toute sécurité dans de très grandes bibliothèques de fonctions sans provoquer d'erreurs d'exécution dangereuses.

Comment accéder à Nemotron 3 Super

Nemotron 3 Super fait partie de la gamme Nemotron 3 et est déjà disponible sur plusieurs plateformes. Vous pouvez le trouver sur build.nvidia.com, Perplexity, OpenRouter et Hugging Face. Dell Technologies propose ce modèle sur Dell Enterprise Hub (Hugging Face), optimisé pour un déploiement sur site dans le cadre de Dell AI Factory. HPE intègre Nemotron à sa plateforme d'agents pour une IA agentique d'entreprise.

L'accès au cloud est étendu. Le modèle est disponible via Google Cloud Vertex AI et Oracle Cloud Infrastructure, et sera bientôt compatible avec Amazon Web Services (via Amazon Bedrock) et Microsoft Azure. Les partenaires cloud de NVIDIA, tels que Coreweave, Crusoe, Nebius et Together AI, proposent des solutions d'inférence hébergées. D'autres fournisseurs d'inférence, comme Baseten, Cloudflare, DeepInfra, Fireworks AI, Inference.net, Lightning AI, Modal et FriendliAI, prennent également en charge les déploiements.

Nemotron 3 Super est proposé sous forme de microservice NVIDIA NIM. Les entreprises peuvent ainsi déployer ce modèle de manière cohérente, aussi bien sur site que dans le cloud, ce qui facilite son intégration à l'infrastructure existante et aux applications multi-agents.

Pour les développeurs et les chercheurs qui souhaitent approfondir leurs connaissances en IA agentique et en Nemotron, NVIDIA propose de la documentation, des actualités, des chaînes communautaires et une collection de tutoriels vidéo et de diffusions en direct à votre rythme.

Article et image originaux : https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/

NVIDIA Nemotron 3 Super : un nouveau modèle ouvert pour les charges de travail d'IA massives

Qu'est-ce que NVIDIA Nemotron 3 Super ?

Pourquoi les systèmes multi-agents ont besoin de modèles comme Nemotron 3 Super

À l'intérieur de l'architecture hybride

Poids ouverts, données d'entraînement et applications concrètes

Comment accéder à Nemotron 3 Super