ChatGPT : OpenAI défend son droit d’utiliser du contenu sous copyright pour entraîner son IA

Après la plainte du New York Times à son égard, OpenAI persiste et signe : il lui faut utiliser tout type de contenu, même sous copyright, pour améliorer ChatGPT. La firme accuse ainsi le média américain de ne pas « raconter toute l’histoire », arguant que son chatbot ne reproduit pas systématiquement les articles du journal ni même son style d’écriture.

Le 27 décembre dernier, le New York Times a porté plainte contre OpenAI, accusant l’entreprise de plagiat via ChatGPT. Le quotidien en a d’ailleurs profité pour inclure également Microsoft et son IA Copilot, pour les mêmes raisons.

D’après le média américain, ChatGPT et Copilot ont tous deux accédé et utilisé des millions d’articles sous copyright pour s’entraîner, si bien qu’aujourd’hui, celui-ci craint de faire face à une concurrence déloyale de la part d’OpenAI.

En effet, ChatGPT n’aurait eu aucun mal à contourner les paywall imposé par le New York Times, afin de « générer des résultats qui récitent le contenu de Times mot pour mot, le résument étroitement et imitent son style expressif », comme l’explique le journal dans sa plainte. Résultat : le New York Times craint de perdre la confiance de ses lecteurs, qui pourraient croire à des articles générés par IA, ou simplement qui cesseraient de payer leur abonnement s’ils peuvent accéder au même contenu gratuitement.

OPENAI PERSISTE ET SIGNE DANS SA RÉPONSE AU NEW YORK TIMES

Alors que le New York Times martèle dans sa plainte que les intelligences artificielles de type LLM représentent une grave menace pour le journalisme, OpenAI accuse à son tour le quotidien, dans un récent billet de blog, de ne pas « raconter toute l’histoire » ». Selon la firme, le New York Times aurait falsifié ses résultats pour soutenir sa plainte, sans prendre en compte le fonctionnement de ChatGPT dans son ensemble.

« Même lorsqu’ils utilisent de tels prompts, nos modèles ne se comportent généralement pas comme l’insinue le New York Times, ce qui suggère qu’ils ont soit donné l’ordre au modèle de régurgiter, soit choisi leurs exemples parmi de nombreuses tentatives », écrit OpenAI.

De plus, l’entreprise affirme que le New York Times a délibérément omis de citer les exemples de prompts qui n’ont pas reproduit à l’identique ses articles et son style.

OpenAI reconnaît tout de même qu’il est possible que ChatGPT reproduise des articles journalistiques bien que, selon lui, les exemples fournis par le New York Times « semblent provenir d’articles datant d’un an qui ont [depuis] proliféré sur de nombreux autres sites web ». L’entreprise a tout de même accepté de désactiver la fonctionnalité Browse du chatbot, responsable de la reproduction de certains contenus.

Ce qui ne l’empêche pas de défendre une nouvelle fois son droit à l’accès au contenu sous copyright.

chatGPT instructions personnalisees

OpenAI revendique en effet que son activité relève du « fair use », un principe de droit américain qui autorise l’utilisation de contenu sous copyright sous certaines conditions.

« Le principe selon lequel la formation de modèles d’IA est autorisée en tant que fair est soutenu par un large éventail d’universitaires, d’associations de bibliothèques, de groupes de la société civile, de startups, de grandes entreprises américaines, de créateurs, d’auteurs et d’autres personnes qui ont récemment soumis des commentaires à l’Office américain du droit d’auteur », souligne l’entreprise.

Pour OpenAI, il n’y a pas de secret : ChatGPT doit avoir accès au maximum de contenus possibles pour s’améliorer.

C’est grâce à cet « énorme agrégat de connaissances humaines » que l’IA pourra livrer des réponses toujours plus précises. Pour ce qui est de l’imitation du style, OpenAI évoque un simple bug, affirmant travailler actuellement sur une solution. En août dernier, la société a promis aux sites web de bloquer l’accès de ChatGPT à leurs articles.

OpenAI

You may like