Les langues celtiques comme le cornique, l'irlandais, le gaélique écossais et le gallois sont profondément ancrées au Royaume-Uni. Pour préserver leur vitalité et leur utilité à l'ère numérique, le projet UK-LLM crée des outils d'intelligence artificielle capables de comprendre et de fonctionner en anglais et en gallois. Ces outils s'appuient sur les technologies avancées de NVIDIA, notamment la famille de modèles d'IA Nemotron.
Permettre à l'IA de fonctionner couramment en gallois permettra aux Gallois d'accéder à des services importants comme les soins de santé, l'éducation et l'assistance juridique dans leur propre langue. Le Premier ministre britannique affirme que l'objectif est de garantir que chacun puisse bénéficier de l'intelligence artificielle, quelle que soit sa langue quotidienne.
Le projet UK-LLM, mené par l'University College London et lancé en 2023, a déjà développé deux modèles d'IA pour les langues britanniques. Leur dernier projet, axé sur le gallois, est le fruit d'une étroite collaboration avec l'Université de Bangor au Pays de Galles et NVIDIA. Il s'inscrit dans l'objectif du gouvernement gallois d'atteindre un million de locuteurs gallois d'ici 2050 grâce à l'initiative Cymraeg 2050.
Le nouveau modèle d'IA pour la langue galloise sera accessible aux développeurs via un service en ligne de Nscale, une entreprise cloud basée au Royaume-Uni. Gruffudd Prys, du centre de technologie linguistique de l'université de Bangor, a expliqué que l'IA peut réellement aider les nouveaux apprenants comme les locuteurs courants à progresser en gallois.
Pour les entreprises et les écoles, ce modèle permet de traduire du contenu et d'intégrer des fonctionnalités de chatbot en gallois aux applications et sites web. Cela permet aux organisations comme les hôpitaux, les enseignants, les diffuseurs et les commerçants de partager plus facilement des informations en gallois et en anglais.
L'équipe prévoit d'utiliser ses connaissances pour créer des modèles d'IA pour d'autres langues du Royaume-Uni, notamment le cornique, l'irlandais, l'écossais et le gaélique écossais. Elle espère également contribuer à la création de modèles pour des langues d'Afrique et d'Asie du Sud-Est en collaborant avec des partenaires du monde entier.
La construction de ce modèle d'IA n'a pas été simple, car les données d'entraînement en gallois sont bien moins nombreuses qu'en anglais ou en espagnol. Pour résoudre ce problème, l'équipe a utilisé les outils NVIDIA pour traduire d'énormes volumes de données anglaises en gallois, fournissant ainsi à l'IA davantage d'exemples d'apprentissage. L'équipe a utilisé des ordinateurs puissants, dont le supercalculateur Isambard de l'Université de Bristol, pour accélérer le processus.
L'Université de Bangor a fait appel à des experts pour s'assurer que l'IA comprenne parfaitement les détails du gallois, notamment la façon dont les mots changent selon le contexte. L'équipe a vérifié l'exactitude et l'utilisation du langage naturel des données d'entraînement traduites et des réponses de l'IA.
Tous ces efforts permettront bientôt de mettre le modèle d'IA gallois et ses données d'apprentissage à la disposition des entreprises, des organisations gouvernementales et des chercheurs. Cela signifie davantage d'applications et de services en gallois et de meilleures chances de développement pour la langue.
Les méthodes et technologies utilisées pour ce projet gallois peuvent contribuer au développement d'une IA pour d'autres langues minoritaires partout dans le monde. Les modèles et outils Nemotron de NVIDIA sont en libre accès, ce qui permet aux développeurs de créer une IA adaptée à de nombreuses langues et à de nombreux usages. Du soutien à l'apprentissage aux entreprises et aux services publics, l'IA devient un puissant outil de soutien aux communautés linguistiques, rendant la technologie plus inclusive pour tous.
Article original et image : https://blogs.nvidia.com/blog/uk-llm-nemotron/