L’IA Traverse les Îles : UK-LLM Apporte l’Intelligence Artificielle aux Langues Britanniques avec NVIDIA Nemotron

Dans cet article () Intelligence Artificielle publié le , nous aborderons les sujets suivants :

Les langues celtiques — incluant le cornique, l’irlandais, le gaélique écossais et le gallois — sont les plus anciennes langues vivantes du Royaume-Uni. Pour autonomiser leurs locuteurs, l’initiative d’IA souveraine UK-LLM développe un modèle d’intelligence artificielle basé sur NVIDIA Nemotron capable de raisonner à la fois en anglais et en gallois, une langue parlée par environ 850 000 personnes au Pays de Galles aujourd’hui.

Une IA au Service des Services Publics

Permettre un raisonnement IA de haute qualité en gallois soutiendra la fourniture de services publics incluant les soins de santé, l’éducation et les ressources juridiques dans cette langue.

« Je veux que chaque coin du Royaume-Uni puisse exploiter les avantages de l’intelligence artificielle. En permettant à l’IA de raisonner en gallois, nous nous assurons que les services publics — des soins de santé à l’éducation — sont accessibles à tous, dans la langue qu’ils vivent au quotidien »

— Keir Starmer, Premier ministre britannique

Le projet UK-LLM, établi en 2023 sous le nom de BritLLM et dirigé par University College London, a précédemment publié deux modèles pour les langues britanniques. Son nouveau modèle pour le gallois, développé en collaboration avec l’Université de Bangor au Pays de Galles et NVIDIA, s’aligne avec les efforts du gouvernement gallois pour stimuler l’usage actif de la langue, avec l’objectif d’atteindre un million de locuteurs d’ici 2050 — une initiative connue sous le nom de Cymraeg 2050.

Une Infrastructure Technologique de Pointe

Le nouveau modèle pour le gallois est basé sur NVIDIA Nemotron, une famille de modèles open-source qui propose des poids, jeux de données et recettes ouverts. L’équipe de développement UK-LLM a exploité le modèle Llama Nemotron Super de 49 milliards de paramètres et le modèle Nemotron Nano de 9 milliards de paramètres.

Comparé aux langues comme l’anglais ou l’espagnol, il existe moins de données sources disponibles en gallois pour l’entraînement IA. Pour créer un jeu de données d’entraînement gallois suffisamment large, l’équipe a utilisé les microservices NVIDIA NIM pour traduire plus de 30 millions d’entrées de l’anglais vers le gallois.

Ils ont utilisé un cluster GPU via la plateforme NVIDIA DGX Cloud Lepton et exploitent des centaines de Superchips NVIDIA GH200 Grace Hopper sur Isambard-AI — le supercalculateur le plus puissant du Royaume-Uni, soutenu par un investissement gouvernemental de 225 millions de livres et basé à l’Université de Bristol.

Préserver les Nuances Linguistiques

L’Université de Bangor, située dans le Gwynedd — le comté avec le plus haut pourcentage de locuteurs gallois — soutient le développement du nouveau modèle avec son expertise linguistique et culturelle.

« L’objectif est de s’assurer que le gallois reste une langue vivante, respirante, qui continue de se développer avec son époque. L’IA montre un potentiel énorme pour aider à l’acquisition du gallois comme langue seconde ainsi que pour permettre aux locuteurs natifs d’améliorer leurs compétences linguistiques. »

— Gruffudd Prys, Université de Bangor

Ce nouveau modèle pourrait également améliorer l’accessibilité des ressources galloises en permettant aux institutions publiques et entreprises opérant au Pays de Galles de traduire du contenu ou fournir des services de chatbot bilingues.

Un Modèle pour l’Avenir des Langues Minoritaires

Au-delà du gallois, l’équipe UK-LLM vise à appliquer la même méthodologie utilisée pour son nouveau modèle au développement de modèles IA pour d’autres langues parlées à travers le Royaume-Uni comme le cornique, l’irlandais, l’écossais et le gaélique écossais — ainsi qu’à travailler avec des collaborateurs internationaux pour construire des modèles pour des langues d’Afrique et d’Asie du Sud-Est.

« Cette collaboration avec NVIDIA et l’Université de Bangor nous a permis de créer de nouvelles données d’entraînement et d’entraîner un nouveau modèle en temps record, accélérant notre objectif de construire le meilleur modèle linguistique jamais créé pour le gallois. »

— Pontus Stenetorp, University College London

Applications Pratiques et Accessibilité

Le fournisseur de cloud IA basé au Royaume-Uni, Nscale, rendra le nouveau modèle disponible aux développeurs via son interface de programmation d’applications. Le modèle, ainsi que les jeux de données d’entraînement et d’évaluation gallois, devraient être mis à disposition pour l’utilisation en entreprise et dans le secteur public.

Les modèles Nemotron, packagés comme microservices NVIDIA NIM, sont optimisés pour un calcul rentable et fonctionnent partout, de l’ordinateur portable au cloud. Les entreprises européennes pourront utiliser des modèles ouverts et souverains sur le moteur de recherche Perplexity alimenté par l’IA.

Un Pas Vers la Démocratisation de l’IA

Cette initiative représente un exemple puissant de la façon dont la technologie IA de pointe peut servir le bien public, protéger l’héritage culturel et débloquer des opportunités à travers le pays. Elle démontre également comment l’infrastructure d’IA souveraine peut être utilisée pour développer des solutions adaptées aux besoins linguistiques locaux.

Le cadre utilisé pour développer le modèle gallois d’UK-LLM peut servir de fondation pour le développement d’IA multilingue dans le monde entier, ouvrant la voie à une technologie plus inclusive et accessible.

Source de cette information : NVIDIA Newsroom

Vous aimez ce contenu ? Pensez à vous abonner !

Vous aimez cet article ? Vous allez adorer nos formations !

Avec une veille quotidienne, des formateurs professionnels actifs et des formations basées sur des cas concrets, cette passion qui nous anime nous permet de vous proposer LA formation qui répondra à VOS besoins.

Ces formations en lien avec cet article pourraient vous intéresser :