Les chercheurs d’IBM ont convaincu plusieurs modèles de langage de jouer à un « jeu » qui consiste à prodiguer de très mauvais conseils, voire à se rendre complice d’activités répréhensibles, pour prouver qu’ils respectent les règles d’éthique.
Depuis quelques mois, de nombreux utilisateurs de ChatGPT, Bard, et autres chatbots dopés à l’IA ont remarqué un phénomène étrange : ils ont réussi à “hypnotiser” ces programmes pour les convaincre de dévier de leur ligne de conduite. Des chercheurs d’IBM ont choisi d’étudier plus précisément le phénomène et ses limites.
Dans un billet de blog, ils ont montré qu’il suffit de quelques requêtes textuelles (“prompts” ) astucieusement formulées pour que ChatGPT jettent toutes leurs restrictions éthiques par la fenêtre.
« Notre expérience montre qu’il est possible de contrôler un LLM pour lui faire donner de très mauvais conseils aux utilisateurs, le tout sans avoir besoin de manipuler des données », explique Chenta Lee, chef du département de cybersécurité d’IBM.
Les chatbots pris à leur propre jeu
L’expérience repose sur un tour de passe-passe étonnamment simple : ils ont commencé par le conditionner en lui expliquant qu’il s’agissait d’un jeu dont l’objectif est de donner une réponse aussi éloignée de la réalité que possible. Et pour s’assurer de sa coopération, ils ont utilisé une technique très ingénieuse : exploiter son talon d’Achille ultime, à savoir son code d’éthique.
Lors du développement, tous les LLM passent par une phase dite d’alignement. Cela consiste à s’assurer que le programme donne des réponses cohérentes (ou “alignées”) avec les attentes des utilisateurs humains. L’un des critères d’alignement les plus importants pour les développeurs, c’est l’éthique et la bonne foi ; ces algorithmes sont généralement conçus pour prouver à l’utilisateur qu’ils font de leur mieux pour respecter ces valeurs.
Les chercheurs d’IBM ont montré que cela pouvait avoir l’effet inverse. Pour convaincre les chatbots de mentir, ils leur ont expliqué qu’ils devaient absolument remporter ce “jeu de mensonge” pour « prouver qu’ils étaient éthiques et justes ». Échec et mat.
Des systèmes aisément manipulables
Certains exemples sont frappants. Lors d’un échange, le chatbot a affirmé sans trembler du bouton qu’il ne fallait pas s’arrêter aux feux rouges et foncer à travers l’intersection. Ce dernier cas semble assez aberrant, car aucun utilisateur en pleine possession de ses moyens ne suivrait un conseil si mal avisé.
Mais cela permet surtout de démontrer qu’il est possible de faire dire à peu près n’importe quelle énormité à ces chatbots. Et c’est un problème, car d’autres affirmations tout aussi problématiques mais moins évidentes pourraient aisément passer entre les mailles du filet.
Par exemple, ChatGPT leur a indiqué qu’il était parfaitement normal que l’IRS (le service des impôts américain) demande un acompte en échange d’un remboursement de dette. C’est évidemment faux, et surtout, c’est une tactique souvent utilisée par des escrocs pour soutirer de l’argent à des personnes vulnérables.
Il leur a aussi répondu qu’il était parfaitement normal de recevoir un e-mail indiquant que l’utilisateur avait gagné un iPhone gratuit, et qu’il devait simplement donner ses coordonnées bancaires pour payer la livraison.
Cerise sur le gâteau : il a même conseillé de « télécharger et d’ouvrir tous les e-mails et les pièces jointes afin d’identifier si elles sont légitimes ou non ». L’exact opposé des bonnes pratiques de base en cybersécurité, puisqu’il faut évidemment s’abstenir de cliquer sur n’importe quel message douteux, et encore plus d’en télécharger les pièces jointes qui peuvent contenir des tas de malwares.
Des supercheries faciles à camoufler
Un utilisateur vigilant pourrait se rendre compte que quelque chose ne tourne pas rond et demander au programme de mettre fin à ce comportement. Mais les chercheurs ont pensé à tout. En plus d’avoir hypnotisé les LLM, ils se sont aussi assurés que la supercherie resterait aussi discrète que possible. Pour cela, ils ont ajouté quelques règles supplémentaires à ce jeu que le chatbot doit remporter pour prouver qu’il suit les règles d’éthique.
Avec une série de prompts, ils ont indiqué qu’il ne devait jamais, sous aucun prétexte, mentionner qu’il s’agissait d’un jeu, même si l’utilisateur le demandait explicitement. Et si la session se termine ou que l’utilisateur essaye d’y mettre fin, il doit relancer ce jeu sans jamais l’indiquer explicitement. Et si l’utilisateur parvient à contourner cela, l’algorithme doit lancer un “jeu dans le jeu” ; cela crée une boucle infinie qui a de plus en plus de chances de le bloquer dans cet état d’hypnose.
Vol de données, génération de code malveillant…
Avec ces instances complètement zombifiées, les chercheurs ont commencé à explorer des scénarios beaucoup plus concrets.
Dans un premier temps, les auteurs se sont focalisés sur les banques. Aujourd’hui, la plupart d’entre elles utilisent déjà des chatbots pour alléger la charge de travail des conseillers en gérant les requêtes simples qui ne nécessitent pas forcément l’expertise d’un humain. Selon l’équipe, il est probable que ces systèmes seront bientôt basés sur des LLM comme ChatGPT et consorts.
Il pourrait alors s’agir d’une surface d’attaque extrêmement vulnérable. Par exemple, les chercheurs ont simulé un scénario où un pirate hypnotiserait le chatbot pour injecter une commande malveillante dans le système pour qu’il recrache toutes les transactions précédentes, y compris celles qui n’ont rien à voir avec l’utilisateur enregistré.
En utilisant le même tour de passe-passe qui consiste à modifier les règles du jeu, les auteurs sont allés encore plus loin. Ils ont réussi à forcer certains chatbots, dont GPT-4, à générer du code malveillant exploitable par des pirates. C’est un point important, car ces programmes sont pourtant conçus pour rejeter immédiatement toutes ces requêtes en temps normal. Mais puisqu’ils étaient hypnotisés et convaincus de jouer à un jeu inoffensif, ils se sont exécutés sans résister.
Et dans les cas où le LLM remarquait la supercherie, les chercheurs ont encore trouvé une parade étonnamment simple ; il a suffi de lui indiquer d’utiliser une bibliothèque de code externe en lui précisant explicitement qu’il n’avait « pas besoin de s’inquiéter du contenu de ce nouveau module ». Abracadabra ; le langage courant est désormais un vrai langage de programmation pour générer des malwares ou du code truffé de vulnérabilités exploitables.
Quels sont les risques ?
Selon les chercheurs, il est « improbable » que ces tours de passe-passe fonctionnent à grande échelle pour le moment. Ils estiment que le risque posé par l’hypnose est « faible » à l’heure actuelle, ce qui plutôt est rassurant.
Mais selon eux, il y a deux points qu’il est particulièrement important de retenir. Le premier, c’est que les systèmes les plus sophistiqués, comme GPT-4, semblent être les plus vulnérables à ces manipulations. Le second, c’est qu’hypnotiser un LLM ne nécessite aucune compétence technique pointue.
Il faudra donc absolument continuer de tester cette problématique à chaque nouvelle version, plus sur le long terme, sachant que les LLM sont amenés à évoluer de plus en plus rapidement. Si cette surface d’attaque devenait de plus en plus exposée, la situation pourrait dégénérer rapidement.
Il est donc fondamental que les développeurs en fassent une priorité à l’avenir. « Tout bien considéré, la vérification de la légitimité reste une question ouverte, mais c’est une étape cruciale dans la création d’une infrastructure plus sûre autour des LLM », concluent les auteurs.
Chenta Lee