Hermes Agent et Qwen 3.6 : L'IA locale boostée par NVIDIA RTX et DGX S

Agent Hermes : une IA locale plus intelligente sur votre PC

L’agent Hermes est une architecture d’agent IA open source de Nous Research, devenue en peu de temps l’un des systèmes d’agents les plus populaires au monde. Il est conçu dès le départ pour fonctionner en local, ce qui rend votre matériel extrêmement important. Pour les utilisateurs de PC équipés de GPU ou de stations de travail NVIDIA RTX, Hermes offre un moyen puissant de transformer un ordinateur de bureau en un assistant IA toujours actif.

Comme d’autres agents modernes, Hermes peut se connecter à des applications de messagerie, accéder à des fichiers et des applications locaux et rester opérationnel 24h/24. Ce qui le distingue, c’est la façon dont il gère la fiabilité et l’auto-amélioration.

Hermes se concentre sur quatre capacités clés.

Compétences auto-évolutives : chaque fois qu’Hermes est confronté à une tâche complexe ou reçoit des commentaires, il peut transformer cette expérience en une compétence réutilisable. Au fil du temps, il développe une boîte à outils qui lui permet de gérer des tâches similaires plus rapidement et avec plus de précision.
Sous-agents contenus : au lieu d’un agent qui tente de tout gérer, Hermes fait appel à des sous-agents à courte durée de vie pour des sous-tâches spécifiques. Chaque sous-agent a son propre contexte et ses propres outils. Cela permet de garder les choses organisées, de réduire la confusion et permet à Hermes de bien fonctionner même avec des fenêtres de contexte plus petites, ce qui est idéal pour les modèles locaux sur les GPU grand public.
Fiabilité de conception : les compétences, les outils et les plug-ins fournis avec Hermes sont sélectionnés et testés par Nous Research. L’objectif est un agent qui fonctionne sans débogage incessant, même lorsque vous utilisez des modèles de classe de 30 milliards de paramètres sur une machine locale.
Meilleurs résultats avec le même modèle : les développeurs comparant des modèles de langage identiques sur différentes architectures d’agents ont constaté qu’Hermes obtenait souvent de meilleurs résultats. La raison est qu’Hermes est conçu comme une couche d’orchestration active plutôt que comme un simple wrapper. Il est conçu pour des agents persistants sur l’appareil plutôt que pour une exécution d’invite ponctuelle.

Comme Hermes et les modèles qu’il utilise sont conçus pour fonctionner localement, les performances du GPU sont très importantes. C’est là qu’interviennent les cartes graphiques NVIDIA RTX et les stations de travail NVIDIA RTX PRO. Elles sont conçues pour les tâches d’inférence d’IA et peuvent maintenir un agent comme Hermes réactif même sous de lourdes charges de travail.

Qwen 3.6 : performances de grand modèle dans un boîtier convivial local

Hermes Agent est indépendant du modèle, mais l’une des associations les plus impressionnantes est avec la nouvelle série Qwen 3.6 d’Alibaba. Il s’agit de grands modèles linguistiques à poids ouvert qui visent à apporter une intelligence de niveau centre de données au matériel local.

La gamme Qwen 3.6 comprend des modèles tels que :

Qwen 3.6 35B : ce modèle fonctionne avec environ 20 Go de mémoire tout en battant les anciens modèles de 120 milliards de paramètres qui peuvent nécessiter plus de 70 Go de mémoire. Cela le rend beaucoup plus pratique pour les GPU RTX haut de gamme et les systèmes d’IA compacts.
Qwen 3.6 27B : un modèle dense avec plus de paramètres actifs qui peut égaler la précision d’énormes modèles comme Qwen 3.5 397B, mais à environ un seizième de la taille. Pour les utilisateurs locaux, cela signifie beaucoup moins de VRAM tout en conservant une capacité de raisonnement sérieuse.

Sur les GPU NVIDIA RTX et les systèmes NVIDIA DGX Spark, ces modèles bénéficient d’un coup de pouce majeur grâce aux cœurs Tensor, qui sont des blocs matériels spécialisés pour l’inférence d’IA. Le résultat est un débit plus élevé et une latence plus faible, de sorte qu’un agent comme Hermes peut planifier des tâches en plusieurs étapes, mettre à jour ses propres compétences ou répondre à vos invites en quelques secondes au lieu de quelques minutes.

Pour les passionnés et les développeurs qui exécutent l’IA en parallèle d’autres charges de travail, l’efficacité de Qwen 3.6 est un atout majeur. Il vous permet d’exécuter des modèles de pointe sans avoir besoin d’un équipement de centre de données énorme, surtout lorsqu’il est associé à des GPU de jeu ou de station de travail modernes.

NVIDIA DGX Spark et prise en main de votre propre matériel

Pour les utilisateurs qui souhaitent une machine IA dédiée toujours active, NVIDIA propose le DGX Spark. Il s’agit d’un superordinateur IA personnel compact conçu pour les charges de travail agiles soutenues et les modèles locaux.

DGX Spark inclut :

128 Go de mémoire unifiée pouvant gérer confortablement de très grands modèles et plusieurs tâches simultanées.
Jusqu’à 1 pétaflop de performances IA, suffisant pour exécuter des modèles de mélange d’experts de 120 milliards de paramètres en continu.
Prise en charge efficace de Qwen 3.6 35B, qui peut fournir une intelligence similaire aux modèles de 120 milliards de paramètres mais avec une empreinte beaucoup plus légère, libérant de la capacité pour les charges de travail parallèles.

NVIDIA fournit un guide DGX Spark pour Hermes qui décrit la configuration et l’optimisation, ce qui facilite la mise en place d’un environnement d’agent local stable.

Si vous êtes prêt à essayer Hermes sur votre propre PC ou station de travail, le processus est simple :

Rendez-vous sur le dépôt GitHub de Hermes Agent et suivez les instructions de configuration.
Choisissez un modèle local tel que Qwen 3.6 et un runtime comme llama.cpp, LM Studio ou Ollama.
Hermes dispose d’intégrations intégrées avec LM Studio et Ollama, ce qui simplifie la configuration et la gestion des modèles.

Cette configuration est idéale pour les utilisateurs avancés, les passionnés de PC et les développeurs qui souhaitent une IA personnelle qui reste sur leur machine, utilise leur GPU et peut être personnalisée en fonction de leurs propres flux de travail.

NVIDIA continue de repousser les performances de l’IA locale avec les GPU RTX PRO et les nouveaux formats de modèles. Exemples :

Les GPU RTX PRO offrant jusqu’à trois fois plus de vitesse de génération de jetons pour les modèles Qwen 3.6 avec llama.cpp, améliorant la réactivité en temps réel.
Les modèles Google Gemma 4 26B et 31B disponibles sous forme de points de contrôle NVFP4 pour les GPU Blackwell, combinés à la prédiction multi-jetons pour tripler la vitesse d’inférence à qualité égale.
Prise en charge mise à jour de Mistral Medium 3.5 dans llama.cpp et Ollama, lui permettant de fonctionner efficacement sur les systèmes RTX PRO et DGX Spark.

Parallèlement à Hermes, NVIDIA a également introduit NemoClaw, une pile open source qui optimise les expériences d’agents de style OpenClaw sur les appareils NVIDIA avec une plus grande sécurité et une prise en charge des modèles locaux. NemoClaw fonctionne désormais avec Windows Subsystem for Linux 2, ce qui le rend plus accessible aux utilisateurs de PC Windows.

Pour les joueurs, les créateurs et les passionnés de matériel PC, cet écosystème ouvre la voie à un avenir où de puissants agents IA fonctionneront directement sur votre propre GPU. Avec des frameworks comme Hermes, des modèles efficaces comme Qwen 3.6 et du matériel tel que les GPU RTX et DGX Spark, l’IA locale devient rapide, fiable et prête à s’intégrer à vos flux de travail quotidiens.

Article et image originaux : https://blogs.nvidia.com/blog/rtx-ai-garage-hermes-agent-dgx-spark/

Hermes Agent et Qwen 3.6 : L'IA locale boostée par NVIDIA RTX et DGX Spark

Agent Hermes : une IA locale plus intelligente sur votre PC

Qwen 3.6 : performances de grand modèle dans un boîtier convivial local

NVIDIA DGX Spark et prise en main de votre propre matériel