La dernière version du modèle s’appuie sur GPT pour faciliter la création d’images complexes et cohérentes.
OpenAI, l’entreprise à l’origine de l’incontournable GPT, vient de révéler son dernier modèle génératif en date. Et cette fois, c’est à nouveau l’image qui est à l’honneur; les troupes de Sam Altman ont révélé la troisième version du générateur d’image DALL-E. Il promet davantage de nuances, de détails et de complexité.
Le premier point mis en avant par OpenAI, c’est la précision des prompts. Même les meilleurs générateurs du moment, tels que Midjourney ou DreamStudio, souffrent d’un problème commun : ils ont tendance à ignorer certains mots de la requête textuelle.
Pour obtenir les meilleurs résultats, il faut donc apprendre empiriquement à communiquer avec l’algorithme. Cela implique de faire des tas de tests sur le vocabulaire et les tournures pour trouver ceux qui ont le plus de chance d’être interprétés correctement. C’est un exercice qui peut s’avérer délicat lorsque l’utilisateur attend un résultat bien précis, d’où le terme de « prompt engineering ».
ChatGPT mobilisé pour la composition de prompts
Avec DALL-E 3, OpenAI veut mettre fin à cet état de fait. « Les systèmes text-to-image modernes ont tendance à ignorer des mots ou des descriptions, ce qui forme l’utilisateur à apprendre le prompt engineering. DALL-E 3 représente un grand pas en avant dans notre capacité à générer des images qui adhèrent exactement au texte fourni », indique l’entreprise.
Et pour ce faire, l’entreprise dispose déjà de l’outil parfait : ChatGPT. La nouvelle mouture du modèle de diffusion 3 est « construite nativement » autour du chatbot.
Il sert désormais d’intermédiaire pour interpréter chaque détail de la requête. Le modèle de langage peut aussi aider l’utilisateur à générer des prompts extrêmement détaillés afin que DALL-E comprenne exactement ce qu’on attend de lui sans avoir recours à des techniques de prompt engineering avancées.
Et si le résultat initial ne convient pas, qu’à cela ne tienne. Il suffit de passer à nouveau par ChatGPT pour réclamer des changements précis au niveau de la couleur, de la forme, du style, d’un détail en particulier… En d’autres termes, OpenAI a mis les petits plats dans les grands pour offrir un degré de contrôle maximal avec un minimum d’effort et d’expertise technique.
Sur les exemples proposés par OpenAI, ont note aussi que DALL-E 3 est capable de générer des textes cohérents. C’est quelque chose que les générateurs d’images ont eu beaucoup de mal à faire jusque là. Par exemple, la dernière version de Midjourney produit toujours des résultats assez… exotiques lorsqu’on lui demande de se livrer à cet exercice.
Protéger les personnalités publiques
L’ entreprise a tout de même imposé un certain nombre de limites à cette troisième version. Par exemple, les ingénieurs ont consolidé les garde-fous déjà présents sur DALL-E et DALL-E 2 qui empêchent l’utilisateur de générer du contenu « violent, adulte ou haineux ».
De plus, DALL-E 3 est conçu pour refuser les requêtes qui mentionnent explicitement une personnalité publique. L’objectif est d’éviter qu’il soit utilisé à des fins de propagande ou de désinformation.
Respecter la propriété intellectuelle
L’autre point important de cette mise à jour, c’est qu’OpenAI semble avoir pris bonne note des nombreuses critiques qui ont été adressées aux différents générateurs d’image au sujet de la propriété intellectuelle. Désormais, DALL-E va refuser les requêtes qui lui demandent d’imiter le style d’un artiste vivant. Cela devrait fermer la porte à de nombreuses tentatives de contrefaçon.
En revanche, ce système de protection sera très certainement imparfait. La précision de cette troisième version est une épée à double tranchant. En théorie, un utilisateur suffisamment perspicace pourra toujours obtenir un résultat assez proche. Il faudra simplement être capable de décrire très précisément le style de l’artiste visé sans le nommer explicitement.
OpenAI propose aussi deux solutions qui permettent à un artiste de refuser que ses travaux soient utilisés pour entraîner DALL-E. La première, c’est de remplir le formulaire à cette adresse. Mais si vous cherchez à en protéger un grand nombre, comme celles que vous conservez sur votre portfolio en ligne, l’idéal est d’interdire l’accès au crawler GPTBot. Pour cela, il suffit de suivre les instructions disponibles à cette adresse.
Cela limitera considérablement la capacité de DALL-E 3 à imiter les œuvres en question. Du moins, si elles n’ont pas déjà été passées à la moulinette. Et c’est malheureusement impossible à déterminer en pratique, puisque les données sources ne sont pas conservées après avoir été intégrées au modèle.
DALL-E3 sera officiellement lancé en octobre prochain pour les clients des offres ChatGPT Plus et ChatGPT Entreprise.
OpenAI