200 langues traduites par un seul programme : Facebook — désormais Meta — repousse les limites de la traduction automatique par IA

Sciences et Avenir a interrogé Antoine Bordes à propos de ce modèle de traduction automatisée intégrant des langues rares, jusqu’à présent non couvertes par ce type d’algorithme. Le directeur du centre français du laboratoire de recherche en intelligence artificielle (IA) de Meta, anciennement Facebook, explique aussi comment NLLB-200 s’inscrit dans le scénario du métavers.

Supercalculateur de Meta
Installé en Amérique du Nord — Facebook ne rentre pas davantage dans les détails —, voici le supercalculateur utilisé pour la traduction automatisée de 200 langues.

En traduction de textes automatisée, Facebook — désormais Meta — mène la danse. Le 8 juillet 2022, le géant des réseaux sociaux (qui possède aussi Instagram et WhatsApp) a annoncé avoir mis au point un programme d’intelligence artificielle capable de prendre en charge la traduction de 200 langues. C’est le double du précédent record, détenu par un algorithme de Microsoft. Le modèle numérique de Meta, appelé NLLB-200 (comme « No Language Left Behind », soit « Pas un langage mis de côté »), prend en compte des langues rares comme le lao (parlé au Laos), le kamba, le peul ou le lingala (parlées en Afrique). Pas ou peu intégrées aux précédents logiciels de traduction, elles sont pourtant utilisées par des millions de locuteurs. Pas moins de 45 millions de personnes parlent ainsi lingala en RDC (République démocratique du Congo), République du Congo, République Centrafrique et Soudan du Sud. Pourtant, il n’existe — relève Meta — que 3260 articles de Wikipédia en lingala ; à comparer par exemple avec les 2,5 millions d’articles en suédois, langue employée par « seulement » 10 millions de personnes en Suède et en Finlande ! Voilà bien l’enjeu de NLLB-200 : proposer un meilleur accès aux contenus du Web à des milliards de personnes, qui jusqu’à présent n’y avaient pas accès en raison de la barrière de la langue.

Si Meta propose son programme en accès libre, ce qui permet à n’importe quel acteur de s’en emparer, l’entreprise créée par Mark Zuckerberg a un intérêt immédiat à développer ce type de service, Facebook réalisant quotidiennement près de 20 milliards de traductions sur son fil d’actualité… Antoine Bordes, directeur du centre parisien en intelligence artificielle de Meta (FAIR, Facebook Artificial Intelligence Research), laboratoire dont les chercheurs ont été en première ligne pour développer NLLB-200, répond aux questions de Sciences et Avenir sur l’élaboration de ce modèle, aboutissement de six ans de recherche sur la traduction par intelligence artificielle. Et évoque la façon dont, à l’avenir, il pourrait s’inscrire dans le scénario du métavers.

« Mille milliards de paramètres ! »

Sciences et Avenir : le programme NLLB-200 est adossé à un supercalculateur. Pour quelle raison ?

Antoine Bordes : Pour assurer la traduction automatisée de 200 langues, il faut brasser une quantité de données considérables. De l’ordre de mille milliards de paramètres ! C’est énorme, même si ces données peuvent être catégorisées de trois façons différentes.

Quels sont ces trois types de données ?

Il y a d’abord — et c’est la partie minoritaire — des données de traduction. En gros, toutes les traductions existantes dans le domaine publique des langues que l’on traite ont été mises dans notre modèle. Ce sont là des textes traduits par des humains.

Il y a ensuite le texte « monolingue », non traduit, qui n’existe que dans sa version originale. Il peut s’agir de textes en anglais, français, italien… mais aussi en zoulou, en assamais ou en bengali (respectivement langues d’Afrique australe, indo-européenne et parlée au Bangladesh, NDLR). On va aller les chercher sur Internet pour alimenter le modèle ; du reste, il y a alors l’enjeu de savoir quelle est la langue en question !

Enfin, le troisième type de données correspond au processus créé par Meta et dont le code est en open source : Laser 3 va fouiller le Web pour chercher des phrases dans différents langages qui veulent dire la même chose. On parle ici de textes traduits dans lesquels les correspondances ont été trouvées de façon automatique. J’insiste : il ne s’agit pas là de traductions écrites par des traducteurs mais de « textes parallèles approximés » que notre système évalue en disant : « Oui, c’est la même chose ». Pensez à des dépêches de presse : quand survient un événement d’envergure internationale, il est couvert dans le monde entier. Aussi les textes des journalistes vont intégrer des phrases ou des expressions que l’on va retrouver dans toutes les langues, et entre lesquelles Laser 3 peut établir des correspondances.

« L’échelle des données est celle du Web multilingue »
Donc le modèle NLLB-200 est alimenté par de vraies traductions faites par des humains, des textes monolingues et des traductions approximatives ?

Oui, l’échelle des données est celle du Web multilingue. D’où la nécessité d’employer un énorme calculateur pour avoir un modèle qui est capable d’ingérer tout cela, de mouliner, d’apprendre, et au final de faire la traduction de davantage de langues d’abord, mais aussi de façon plus qualitative. Il y a en effet en moyenne 44% d’amélioration sur les langues déjà couvertes par la traduction automatisée.

Ce type d’estimation, pour sanctionner la qualité de la traduction, est faite par un outil d’évaluation baptisé FLORES-200. Or, il a également été mis au point par le labo d’IA de Facebook. N’êtes-vous pas juge et partie ?

D’abord, ce n’est pas une volonté de notre part que de concevoir nous-mêmes l’outil d’évaluation, mais une nécessité. Il n’existait tout simplement pas de dispositif de cet ordre couvrant les langues rares. Cela est complexe à mettre en œuvre : il faut trouver des locuteurs capables de traduire. Nous avons dû engager des traducteurs qui ont travaillé en deux équipes distinctes : l’une produit la traduction d’un texte, l’autre juge la traduction ainsi produite. C’est une façon de lever les biais. Mais, effectivement, Meta conçoit l’outil de validation et aussi le modèle : est-ce qu’on n’est pas en train de s’autocongratuler ? La question est légitime. Nous y répondons en mettant tout en « open source ». Tout est publié, c’est notre juge de paix. Notre article scientifique est énorme, il regorge de détails, mais il est disponible. Meta est vraiment ouvert à l’amélioration et à la critique dans une démarche purement scientifique, sur le plan de la reproductibilité et de la critique par les pairs.

« Le Web va évoluer de la 2D à la 3D »
Comment la traduction automatisée s’inscrit-elle dans le scénario du métavers, cette évolution du Web poussée par Facebook et Meta ?

De façon très centrale. Nous voulons un métavers inclusif qui soit une source d’opportunité pour le plus grand nombre. L’un des leviers est de casser la barrière de la langue. Le métavers doit être polyglotte par essence. Imaginez-vous participer à une réunion virtuelle en Afrique subsaharienne. Avec la traduction automatisée, il est possible de parler à tout le monde même sans pratiquer le langage majoritairement employé par les participants. Le métavers doit créer cet environnement où l’on peut parler, échanger, dialoguer — y compris en donnant une chance aux gens qui ne parlent pas bien anglais ; après tout, 80% de l’information disponible sur le Web l’est dans cette langue !

NLLB-200 est orienté vers le texte écrit. Mais Méta a un autre projet, connexe : l’Universal speech translator, la traduction de « voix à voix » en temps réel. En conservant les accents, les silences, la prosodie… tout ce qui fait la conversation. Les deux projets sont entièrement complémentaires — leurs équipes travaillent fortement ensemble —, donc d’un côté on étend le nombre de langues traduites de façon automatisée, de l’autre on regarde le sujet du « speech to speech ». Au final, à plus long terme sans doute, on pourrait être capable de faire 200 langues en « voix à voix » en temps réel. Ce sera cela, le métavers.

Meta est très volontaire sur le sujet… mais n’êtes-vous pas les seuls à y croire ?

Je ne le pense pas du tout. Voyez le récent salon Vivatech : il n’y avait pas que le stand Meta qui parlait de métavers, loin s’en faut ! Si l’enjeu est de se dire qu’on risque de se retrouver tout seuls là-bas, moi je ne suis pas inquiet du tout. De nombreux acteurs considèrent que le Web va évoluer de la 2D à la 3D, avec un coté immersif déterminant sur des enjeux de bureautique, de divertissement, de travail ou de gaming. Nous sommes persuadés que c’est là le futur d’Internet, et en particulier le futur de la communication, de la projection sociale et la relation en ligne. On y croit, et on y va.

sciencesetavenir

« Mille milliards de paramètres ! »

You may like