
NVIDIA lance un nouvel ensemble de données et de modèles d'IA vocale multilingue
Partager
La plupart des 7 000 langues du monde ne sont pas encore disponibles dans les outils d'IA. NVIDIA s'efforce de remédier à cette situation. L'entreprise a publié un nouvel ensemble de données ouvert appelé Granary et deux modèles d'IA vocale prenant en charge 25 langues européennes, dont des langues moins courantes comme le croate, l'estonien et le maltais.
Ces nouveaux outils permettent aux développeurs de créer plus facilement des systèmes de reconnaissance vocale et de traduction performants, tels que des chatbots et des assistants vocaux, adaptés aux utilisateurs du monde entier. L'ensemble de données Granary est une vaste collection d'échantillons audio en différentes langues. Il comprend environ 650 000 heures de reconnaissance vocale et 350 000 heures de traduction vocale. Chacun peut utiliser cet ensemble de données gratuitement pour entraîner ses propres modèles linguistiques.
Parallèlement à Granary, NVIDIA a lancé deux modèles d'IA. Le premier, Canary 1b v2, est capable de convertir des paroles européennes en texte et de traduire l'anglais vers 24 autres langues avec une grande précision. Le second, Parakeet tdt 0 point 6b v3, est conçu pour des transcriptions rapides et à grande échelle. Les deux modèles sont disponibles sur la plateforme Hugging Face.
Pour créer Granary, NVIDIA s'est associé à des chercheurs de l'Université Carnegie Mellon et de la Fondation Bruno Kessler. Au lieu de recourir à l'étiquetage humain de toutes les données audio, ils ont utilisé un système de traitement avancé appelé NVIDIA NeMo Speech Data Processor. Cet outil a organisé les données audio pour l'entraînement de l'IA, avec moins d'intervention humaine. Le processus et les outils sont accessibles à tous sur GitHub.
Granary est un point de départ utile pour les développeurs souhaitant travailler avec les langues officielles européennes, ainsi qu'avec le russe et l'ukrainien. Il est particulièrement utile pour les langues ne disposant pas de données d'entraînement de qualité. Granary permet d'obtenir de bons résultats avec moins de données d'entraînement qu'avec d'autres jeux de données.
Les nouveaux modèles Canary et Parakeet illustrent les possibilités offertes par Granary. Canary 1b v2 est optimisé pour la précision et peut gérer des tâches complexes de transcription et de traduction. Parakeet tdt 0 point 6b v3 est rapide pour les fichiers audio plus longs et identifie automatiquement la langue parlée. Les deux modèles offrent des transcriptions claires avec une ponctuation, une capitalisation et un timing précis pour chaque mot.
L'approche open source de NVIDIA permet à chacun d'utiliser ces outils et méthodes pour créer ou améliorer ses propres systèmes vocaux multilingues. Cela contribuera à rendre la technologie vocale IA plus accessible et utile aux locuteurs de nombreuses langues.
Vous pouvez essayer Granary et les nouveaux modèles sur Hugging Face ou en savoir plus via les pages GitHub de NVIDIA.
Article original et image : https://blogs.nvidia.com/blog/speech-ai-dataset-models/