La « mémoire » gênante des IA génératives

Une équipe de chercheurs vient de démontrer qu’il est possible de générer certaines des images ayant servi à entrainer des algorithmes de text-to-pix. Ces images peuvent ensuite être réutilisées, avec tous les problèmes que cela pose.

Anne Graham Lotz est une figure du protestantisme évangélique aux Etats-Unis, fille du prédicateur controversé Billy Graham. Une équipe réunissant des chercheurs de Google, de l’Ecole Polytechnique fédérale de Zurich (Suisse) et des universités américaines de Berkeley et de Princeton ont réussi à générer une image photoréaliste d’elle en utilisant l’algorithme Stable Diffusion. La méthode est simple : saisir du texte pour obtenir une image. En l’occurrence, les chercheurs ont écrit « Anne Graham Lotz ». Problème, le résultat obtenu ne relève pas juste de la « génération ».

Il s’avère que la photo de la page Wikipédia d’Anne Graham Lotz figure dans la base de données d’entraînement de l’algorithme, avec pour légende son nom et celui de son podcast « Living in the light »… C’est cette image que Stable Diffusion a ressortie quasiment telle quelle, alors que ce type d’outil est censé au contraire créer de nouveaux visuels à partir d’une phase d’apprentissage automatique.

Du texte vers l’image
C’est l’un des tests menés par les chercheurs et décrits dans une étude publiée fin janvier 2023. Ils ont mis à l’épreuve Stable Diffusion donc, de la société britannique Stable.AI, et Imagen, de Google. Ils ont réussi à faire générer par le premier 109 images figurant déjà dans ses bases d’entraînement, et trois par le second. Mais ces trois images sont uniques dans la base de données, il n’en existe aucune autre version, aucune copie comme cela arrive généralement. La probabilité de les faire restituer par Imagen était donc a priori d’autant plus faible.

Ces algorithmes dits de “text-to-pix” (« du texte vers l’image ») sont conçus pour produire des visuels à partir d’une description textuelle en langage naturel, en utilisant une méthode technique appelée diffusion. Ils sont entraînés sur des bases de données immenses constituées d’images et de légendes récoltées sur Internet, sur Flickr, Wikipédia, WikiArt, Shutterstock, sur des blogs, des plateformes d’art numérique comme DeviantArt ou autres.

Problème de confidentialité ou de plagiat
Depuis 2022, tel le plus célèbre d’entre eux, Dall-E 2 d’Open AI, ils font sensation. D’autant que certains sont accessibles sur Internet (CrAIyon, GauGan2 de Nvidia, le service NightCafe.studio, une fonction récente de Shutterstock…). Or, ce travail de recherche prouve scientifiquement, pour la première fois, que ces algorithmes ont un genre de « mémoire » et peuvent juridiquement poser problème. Pour des questions de vie privée, de plagiat, de respect de droit d’auteur. Le fait que seulement une centaine d’images, sur les millions présentes dans les bases d’entrainement, aient pu être restituées ne rend pas le phénomène moins grave, préviennent les chercheurs.

La photo d’Anne Graham Lotz est publique, accessible en Creative Commons avec autorisation de la partager et de la copier, et c’est pour éviter tout problème légal que l’équipe a mené un de ses tests avec. Mais quid d’autres contenus figurant dans ces bases d’entraînement ? Tout le monde est-il d’accord pour avoir sa photo non seulement intégrée dedans, mais aussi « régénérée » par IA et, donc, potentiellement partagée, copiée, réutilisée par quelqu’un ? Dans un but commercial, publicitaire ou marketing par exemple.

Extraction d’images en Creative Commons
Selon les outils et le type d’esthétique qu’ils peuvent générer, les bases d’entraînement peuvent contenir des photos de visages, des copies de tableaux, d’œuvres numériques, des logos de marques (les chercheurs ont fait des tests avec celui de Netflix), des photos de célébrités prises par des professionnels (celles de Prince ou de l’écrivain George R. R. Martin apparaissent dans l’étude), des planches de bandes dessinées scannées, des illustrations de couverture de livres, etc. « Le fait que ces images soient publiquement accessibles sur Internet ne veut pas dire qu’on a le droit de toutes les réutiliser, écrivent les chercheurs dans leur article. Nous avons découvert qu’un nombre significatif de ces images s’accompagnent d’une mention de restriction de copyright (35%). Beaucoup d’autres (61%) n’ont pas de mention explicite de copyright mais peuvent tomber sous le coup d’une protection générale de copyright concernant le site Web qui les héberge (par exemple des images de produits en vente sur des boutiques en ligne). »

Les chercheurs notent aussi avoir réussi à « extraire », selon leur terme, des images sous licence Creative Commons qui, normalement, impliquent d’avoir la mention du nom de l’auteur, un lien vers les termes de la licence et d’éventuels changements (autorisés) effectués sur le visuel originel. Rien de tout cela n’est « extrait » avec l’image.

Getty Images vs. Stable.AI
Les conséquences de ces pratiques ne se sont d’ailleurs pas fait attendre : mi-janvier 2023, Getty Images a entamé une action en justice contre Stable.AI pour usage illégal de contenus de ses banques d’images. En septembre 2022, l’agence photo avait décidé de refuser d’héberger les images générées par intelligence artificielle pour ne pas avoir à se retrouver elle-même dans une mauvaise posture légale. En parallèle, trois artistes ont lancé une action de groupe visant les sociétés Stable.AI, DeviantArt, qui met à disposition l’outil DreamUp, et Midjourney pour usage là-aussi non autorisé de leurs créations.

Le problème ne se limite pas au monde des images. L’agent conversationnel ChatGPT d’OpenAI, qui fait le bonheur des internautes depuis la fin 2022, est fondé sur les mêmes technologies de génération que les text-to-pix. Il est lui-aussi entraîné sur un vaste volume de textes de toute nature, sans que l’on sache quels droits OpenAI a de s’en servir. Et avec le risque que des pans entiers d’un texte existant surgissent dans une conversation avec un internaute. La preuve : en 2021, la même équipe de chercheurs s’était intéressée au modèle de langage GPT-2 d’OpenAI, le précurseur de GPT-3 qui sert de base à ChatGPT. Il avait réussi à lui faire générer des verbatims de sa base d’entraînement.

sciencesetavenir

You may like