La nouvelle version du grand modèle de langage d’OpenAI est capable de décrire des images. Elle sera disponible en version payante pour être intégrée dans diverses applications. Dont la formule elle-aussi payante de ChatGPT.
Si, en cette mi-mars 2022, vous demandez à Chat-GPT sur quelles données a été entraîné le modèle de langage GPT-4, l’agent conversationnel vous répondra qu’à sa connaissance, GPT-4 n’existe pas encore. Or, OpenAI, la société à l’origine des modèles GPT (Generative PreTraining), a bien présenté la quatrième version de sa technologie phare le 14 mars 2023. C’est juste que GPT-3, qui a servi à bâtir Chat-GPT, a utilisé des données allant jusqu’à septembre 2021.
Un « rapport technique » plutôt qu’un article de recherche est disponible en ligne sur le site d’OpenAI. Il assure que « même s’il est moins compétent que les humains dans de nombreux cas de figure de la vie réelle, GPT-4 montre des performances équivalentes à celle des humains dans divers bancs d’essai relevant de domaines professionnels et académiques ». Il a été notamment évalué sur plus d’une trentaine d’examens, en simulation respectant leurs conditions réelles (droit, histoire internationale et américaine, statistique, psychologie, physique et même œnologie). Il dépasse GPT-3.5 dans la moitié d’entre eux.
Description de photos, de dessins et de schémas
OpenAI ne dit rien, pour l’heure, de la base de données d’entraînement. Celle-ci était de toute façon déjà conséquente pour GPT-3 avec 45 terabytes de données incluant des pages web, Wikipedia, deux corpus de livres numérisées. Quoi qu’il en soir, la grande nouveauté de cette nouvelle version, c’est le traitement des images. GPT-4, toujours selon le rapport technique, est capable de décrire une image qu’on lui soumet en l’associant à une question en langage naturel, pour guider la réponse à fournir (comme on le fait dans Chat-GPT). Il est possible de lui envoyer des photos, des dessins, des schémas, voire plusieurs en même temps si c’est cohérent avec la question posée. Et a priori, GPT-4 s’avère apte à saisir et expliquer le comique d’une situation visuelle !
Il reste qu’OpenAI prend toutes les précautions du monde. « GPT-4 a les mêmes limites que les versions précédentes de GPT : il n’est pas totalement fiable, a une fenêtre contextuelle (le nombre de mots qu’il prend en compte pour déterminer le contexte d’un mot en particulier, ndlr) limitée et n’apprend pas à partir de son expérience ». La dernière assertion signifie que les échanges avec les utilisateurs ne servent pas à peaufiner le modèle.
OpenAI avertit également sur des possibles risques d’erreurs, de biais, de cybersécurité ou de désinformation, ce que la plupart des utilisateurs de Chat-GPT ont pu à un moment ou à un autre constater par eux-mêmes.
Intégration dans Bing et Chat-GPT Plus
Chat-GPT, justement, va bénéficier de cette évolution du modèle. Mais pas dans les mêmes conditions que celles qui ont fait le bonheur des internautes cet hiver : il va falloir utiliser la version payante, Chat-GPT Plus. L’abonnement pilote a été lancé début février 2023, pour 20 dollars par mois. Il est accessible pour la France depuis le 10 février. Les développeurs peuvent également s’inscrire sur une liste d’attente pour tester l’intégration de GPT-4 dans leurs applications.
Le grand public, lui, peut toutefois avoir un aperçu de la chose gratuitement : Bing, le moteur de recherche de Microsoft, qui a intégré Chat-GPT début février également, fonctionne d’ores déjà avec GPT-4. Plus exactement : la brique Chat-GPT proposée par le moteur est depuis le début bâtie sur la version 4 du modèle de langage d’Open AI. Simplement, Bing et OpenAI s’étaient bien gardés de le dire.
AFP