Certains systèmes basés sur l’IA pourraient se mettre à « tricher », avec des conséquences très concrètes pour l’humanité.
Aussi impressionnantes soient-elles, de très nombreux observateurs comme Elon Musk s’accordent à dire que les technologies associées à l’intelligence artificielle comportent aussi des risques considérables qu’il faut anticiper dès aujourd’hui. C’est aussi la conclusion d’un nouveau papier de recherche glaçant dont les auteurs estiment que cette technologie représente une véritable menace existentielle pour l’humanité.
C’est loin d’être la première fois que l’on voit réémerger ce discours ; même si cette affirmation repose sur des bases très sérieuses, elle est souvent assortie d’arguments assez caricaturaux, pour ne pas dire complètement fantaisistes.
Mais cette fois, la donne est très différente. Cela commence par l’identité de ces lanceurs d’alerte. Ils ne s’agit pas de quelques illuminés qui brassent de l’air dans les profondeurs d’un forum obscur ; ces travaux, on les doit à des chercheurs tout à fait sérieux et issus d’institutions fiables et prestigieuses, à savoir l’Université d’Oxford et DeepMind, l’un des leaders mondiaux de l’intelligence artificielle.
Des cadors, en somme, qui ne monteraient pas au créneau sans raison valable. Et lorsqu’ils se mettent à affirmer, eux aussi, que l’humanité a largement sous-estimé les dangers liés à l’IA, mieux vaut tendre l’oreille. Surtout qu’ils présentent des arguments techniques qui semblent plus que convaincants.
Les GAN, des programmes (trop?) puissants
Leur postulat tient en une phrase qui est aussi le titre de leur papier de recherche : « les agents artificiels avancés interviennent dans le processus de récompense ». Pour comprendre cette affirmation tortueuse, il faut commencer par s’intéresser au concept de Generative Adversarial Network, ou GAN.
Les GAN sont des programmes imaginés par l’ingénieur Ian Goodfellow. Très sommairement, ils fonctionnent grâce à deux sous-programmes relativement indépendants et qui s’opposent l’un à l’autre — d’où le terme « Adversarial ». D’un côté, nous avons un réseau de neurones relativement standard qui apprend au fil des itérations.
De l’autre, on trouve un second réseau qui supervise l’entraînement du premier. Un peu comme un instituteur, il passe en revue les conclusions de son compère pour lui indiquer si l’apprentissage progresse dans la direction souhaitée. Si les résultats sont satisfaisants, le premier réseau reçoit une « récompense » virtuelle qui l’encourage à persévérer dans la même direction. Dans le cas contraire, il hérite d’un blâme qui lui indique qu’il a suivi la mauvaise piste.
C’est un concept qui fonctionne terriblement bien, à tel point que les GAN sont aujourd’hui utilisés dans des tas de domaines. Mais un problème pourrait survenir au fil des évolutions technologiques, en particulier si cette architecture était intégrée à ces fameux “agents artificiels avancés“.
Ce terme désigne une nouvelle classe d’algorithmes encore hypothétiques. Ils seraient significativement plus avancés et plus autonomes que les GAN actuels. Et surtout, ils disposeraient d’ une marge de manoeuvre largement supérieure qui leur permettrait de définir leurs propres objectifs – tant que cela permet d’aider les humains à résoudre des problèmes concrets “dans des environnement où ils ne disposent pas du code source“, c’est à dire le monde réel.
Les chercheurs expliquent que le fait de motiver un tel système avec un système de récompense pourrait avoir des conséquences assez catastrophiques.
JDG