Ignorer et passer au contenu
Comment NVIDIA Nemotron optimise le traitement intelligent des documents

Comment NVIDIA Nemotron optimise le traitement intelligent des documents

Transformer des documents ennuyeux en données vivantes

La plupart des entreprises croulent sous une quantité impressionnante de documents : PDF, rapports, contrats, e-mails, feuilles de calcul et pages web. Ces fichiers recèlent des informations précieuses sur les clients, les finances, les risques et les perspectives de croissance. Le problème ? Ces informations sont enfermées dans des formats difficiles à rechercher et lents à analyser.

Les outils traditionnels comme la recherche de base, le travail manuel sur tableur ou la simple reconnaissance optique de caractères (OCR) passent généralement à côté des détails les plus importants, surtout lorsque le contenu se trouve à l'intérieur de graphiques, de tableaux, d'images ou de pages multilingues.

C’est là qu’intervient le traitement intelligent des documents. Il s’agit d’un flux de travail basé sur l’IA qui lit et comprend automatiquement les documents, puis les transforme en données structurées et consultables. Les modèles NVIDIA Nemotron et les bibliothèques accélérées par GPU sont conçus pour alimenter précisément ce type de système à grande échelle.

L'intelligence documentaire basée sur Nemotron traite un document de manière plus proche de celle d'un humain. Elle reconnaît sa mise en page et sa structure, comprend les relations entre le texte, les tableaux et les images, puis intègre cette compréhension approfondie aux agents et applications d'IA en aval.

Que fait réellement l'intelligence documentaire moderne ?

Un système d'intelligence documentaire performant, basé sur les technologies NVIDIA, s'articule autour de quatre fonctionnalités principales.

  • Compréhension du contenu riche : ce système ne se contente pas d’extraire du texte brut. Il peut lire les graphiques, les tableaux, les figures et les pages multilingues, en préservant la mise en page et le contexte afin que le sens ne soit pas perdu.
  • Gestion de volumes de données massifs : Il peut ingérer et traiter en parallèle d'immenses bibliothèques de fichiers PDF et autres documents, maintenant ainsi les bases de connaissances à jour en permanence au lieu de les figer dans le temps.
  • Déterminer précisément ce qui compte : les agents d'IA peuvent identifier les passages, tableaux ou sections les plus pertinents pour une question donnée, ce qui améliore la qualité et la précision des réponses dans les systèmes de recherche et de réponse aux questions.
  • Fournir des preuves : les réponses sont accompagnées de références bibliographiques renvoyant à des pages, graphiques ou tableaux précis. Cette traçabilité est essentielle dans les secteurs réglementés comme la finance et le droit.

Il en résulte un passage d'archives statiques à des systèmes de connaissances vivants capables d'alimenter des tableaux de bord analytiques, des agents de support client, des outils de recherche et des moteurs de décision.

Cas d'utilisation concrets optimisés par Nemotron

Les modèles NVIDIA Nemotron et l'accélération GPU sont déjà utilisés en production par des entreprises de différents secteurs. Voici trois exemples concrets.

Justt : Des litiges de rétrofacturation plus intelligents dans les services financiers

Les litiges de paiement et les rétrofacturations représentent un véritable casse-tête pour les commerçants. Les preuves nécessaires pour gagner ou évaluer un litige sont éparpillées dans les journaux de transactions, les communications avec les clients, les documents de politique interne et divers systèmes internes. Rassembler ces informations manuellement est long et coûteux.

Justt.ai a développé une plateforme de gestion des contestations de paiement basée sur l'IA, qui se connecte directement aux prestataires de services de paiement et aux sources de données des commerçants. Elle intègre les enregistrements de transactions, les messages et les documents de politique de paiement, puis rassemble automatiquement les preuves spécifiques au litige exigées par les réseaux de cartes et les émetteurs.

Grâce à l'utilisation conjointe de Nemotron Parse et de l'analyse prédictive, la plateforme détermine quelles contestations de paiement sont justifiées, lesquelles accepter et comment optimiser chaque réponse. De grands groupes hôteliers comme HEI Hotels and Resorts l'utilisent pour automatiser la gestion des litiges à grande échelle, recouvrer les revenus issus de contestations de paiement injustifiées et réduire le travail manuel de vérification.

Il s'agit d'une intelligence documentaire combinée à une automatisation des décisions. Au lieu que le personnel épluche des PDF et des journaux, le système lit et comprend les informations, puis suggère ou exécute la meilleure action.

DocuSign : Compréhension approfondie des contrats à grande échelle

DocuSign gère les contrats de plus d'un milliard d'utilisateurs. Chaque contrat regorge d'informations essentielles sur les obligations, les risques et les opportunités, mais ces informations sont dissimulées dans des documents complexes de plusieurs pages, souvent dans des tableaux complexes.

Pour accéder à ce contenu, DocuSign évalue Nemotron Parse exécuté sur des GPU NVIDIA. Ce modèle combine la détection de mise en page, la reconnaissance optique de caractères (OCR) et une intelligence artificielle avancée pour interpréter avec précision les tableaux et le texte des PDF complexes.

L'objectif est de réduire les corrections manuelles, de reconstruire les tableaux de manière fiable et d'extraire les métadonnées essentielles pour les entreprises. Une fois les contrats convertis en données structurées, DocuSign permet la recherche de contrats, l'analyse de données et l'automatisation des flux de travail par IA, aidant ainsi les organisations à appréhender les risques, à suivre leurs obligations et à prendre des décisions plus rapidement.

Autrement dit, les référentiels d'accords cessent d'être un stockage statique et deviennent des sources de données actives qui se connectent directement à l'informatique décisionnelle et à l'automatisation.

Edison Scientific : L'IA au service de la recherche documentaire massive

Les chercheurs sont confrontés à un problème différent, mais connexe : ils doivent analyser d’énormes volumes d’articles scientifiques regorgeant d’équations, de tableaux, de figures et de textes denses. Les outils traditionnels peinent souvent à traiter ces formats, notamment pour extraire des informations structurées des fichiers PDF.

Edison Scientific a conçu Kosmos AI Scientist pour aider les chercheurs à synthétiser la littérature, à identifier les liens et à mettre en évidence les preuves. Afin de permettre un déploiement à grande échelle, ils ont intégré NVIDIA Nemotron Parse à leur pipeline PaperQA2.

Le système analyse les articles de recherche, indexe les concepts clés et ancre les réponses dans des passages précis de la littérature. Il gère des contenus multimodaux complexes tout en garantissant un débit élevé et une qualité de réponse optimale. Grâce à l'efficacité de Nemotron Parse, Edison peut déployer ce flux de travail à grande échelle et à moindre coût, transformant ainsi un vaste corpus de recherche en un moteur de connaissances interrogeable.

Comment NVIDIA Nemotron alimente le pipeline

En coulisses, un pipeline moderne d'analyse documentaire nécessite le fonctionnement conjoint de plusieurs éléments : extraction, intégration, réorganisation et analyse syntaxique. NVIDIA fournit chacun de ces éléments sous forme de modèles optimisés et de microservices exécutés sur GPU.

  • Les modèles d'extraction et de reconnaissance optique de caractères (OCR) de Nemotron traitent rapidement les fichiers PDF multimodaux contenant du texte, des tableaux, des graphiques et des images. Ils convertissent le contenu en un format structuré et lisible par machine, tout en préservant la mise en page et la sémantique.
  • Les modèles d' intégration Nemotron transforment les passages, les entités et les éléments visuels en vecteurs optimisés pour la recherche de documents, permettant ainsi une recherche sémantique précise.
  • Les modèles de réordonnancement Nemotron évaluent les passages candidats issus d'une étape de recherche et sélectionnent le contexte le plus pertinent pour les grands modèles de langage. Cela améliore la qualité des réponses et réduit les hallucinations.
  • Les modèles d'analyse Nemotron Parse déchiffrent la structure des documents pour extraire le texte et les tableaux avec un ancrage spatial précis et un flux de lecture correct, même lorsque les mises en page varient considérablement.

Ces composants sont proposés sous forme de microservices et de modèles de base NVIDIA NIM. Les entreprises peuvent les déployer sur le cloud de leur choix ou dans leur propre centre de données, et passer de la preuve de concept à la production tout en garantissant la sécurité des données sensibles.

De nombreux systèmes réels combinent des modèles propriétaires de pointe avec des modèles open source comme Nemotron, en utilisant un routeur LLM pour sélectionner le modèle le plus adapté à chaque tâche. Ceci permet de maintenir des performances élevées tout en maîtrisant l'utilisation du GPU et les coûts.

Pour les équipes souhaitant développer des systèmes similaires, NVIDIA propose des tutoriels, des bibliothèques ouvertes comme NeMo Retriever et des modèles RAG prêts à l'emploi sur des plateformes telles que GitHub, Hugging Face et le catalogue NGC. Grâce à ces ressources, les développeurs peuvent créer des agents spécialisés capables d'interpréter des documents complexes et de transformer des données non structurées en informations exploitables et consultables.

Article et image originaux : https://blogs.nvidia.com/blog/ai-agents-intelligent-document-processing/

Panier 0

Votre carte est actuellement vide.

Commencer à magasiner