Une nouvelle méthode d’évaluation par des chercheurs espagnols montre que les modèles de langage capables d’interagir en plusieurs langues donnent de meilleures réponses quand la question est traduite en anglais.
Les grands modèles de langage qui font tant parler d’eux actuellement sont capables d’aborder (presque) tous les sujets, de le faire en s’exprimant bien et le tout en plusieurs langues. Sauf qu’ils s’avèrent quand même plus performants dans leurs réponses quand c’est en anglais… Pour le démontrer, une équipe de chercheurs espagnols du centre de recherche en technologie du langage de l’université du Pays Basque a mis au point une méthode d’évaluation nouvelle.
Et l’ont testée sur sept modèles de langage, plus précisément 4 modèles dérivés de XGLM, une technologie issue du laboratoire de recherche en intelligence artificielle de Meta, et 3 autres bâtis sur la première version de LLaMa, également produit par Meta AI.
« Prompt » en version originale, ou traduit en anglais
Les chercheurs ont posé des questions (un « prompt », selon le vocabulaire propre à ces technologies) dans une langue donnée à chacun de ces modèles, mais chaque question était posée selon deux approches différentes. Dans un cas, le « prompt » était écrit directement dans cette langue et la réponse (ou « output ») arrivait également dans cette langue.
Dans l’autre, la question était posée dans la langue voulue mais automatiquement traduite en anglais par le modèle de langage, qui répondait alors en anglais. C’est sur ce point que l’équipe a innové : jusque-là, pour évaluer le multilinguisme des outils, les « prompts » écrits dans une certaine langue étaient traduits par des outils extérieurs au modèle avant de générer l’ »output » en anglais.
Les réponses des modèles ont été évaluées à partir de questions issues de plusieurs bases de données multilingues. Les unes sont des exercices de raisonnement de sens commun (associer une cause à une conséquence dans un énoncé, par exemple), de mathématique (« John a 12 pommes ; il en mange un quart. Combien lui en reste-t-il ? »), d’autres servent à des tâches d’identification de paraphrase (la base PAWS-X) . Les chercheurs ont donc comparé, pour un même prompt, les résultats obtenus avec l’une et l’autre de leurs méthodes.
Un bilan sans appel
Le bilan est sans appel : « Les modèles sont bien plus performants en moyenne quand ils répondent en anglais, sur tous les types d’exercices, et cela compense même les erreurs de traduction qu’ils peuvent faire quand ils passent de la langue initiale à l’anglais », explique Julen Etxaniz, spécialiste de traitement du langage et coauteur de ce projet.
Si on regarde dans le détail des tâches de raisonnement, l’approche sans traduction donne parfois de meilleurs résultats mais c’est très marginal et concerne uniquement les modèles basés sur XGLM. « Les performances obtenues avec l’autotraduction prouvent qu’utiliser un système de traduction externe n’est pas nécessaire si on veut améliorer les résultats donnés directement dans la langue initiale », continue Julen Etxaniz.
Les auteurs notent aussi dans leur article que tout cela « démontre que les modèles multilingues ne peuvent pas donner tout leur potentiel quand on les sollicite dans une autre langue que l’anglais ».
La raison en est assez évidente : la prééminence de contenus en anglais dans les données d’entrainement. « Même les modèles les plus multilingues, comme XGLM et BLOOM, ont été entraînés sur plus de 30% de données anglophones », pointe Julen Extaniz. Les écarts moyens de performances entre les deux méthodes d’évaluation sont toutefois plus réduits avec les modèles dérivés de XGLM qu’avec ceux dérivés de LLaMa, alors même que ces derniers sont plus gros : entre 0,3 et 2,3 points pour les uns et de 2,8 à 3,5 points pour les autres.
Or, on l’a vu, c’est uniquement avec XGLM que la méthode sans traduction parvient parfois à donner de meilleurs « output ». Autrement dit : plus un modèle de langue est multilingue, moins il a besoin de traduction, qu’importe sa taille et l’ampleur de sa base d’entrainement.
Les chercheurs ont cependant une autre piste pour expliquer la supériorité de la langue anglaise. Les modèles fournissent peut-être de meilleurs « output » lorsqu’ils traitent un « input » qu’ils ont eux-mêmes généré, à savoir, ici, la traduction en anglais. Mais ce n’est pour l’heure qu’une supposition.
sciencesetavenir