Attaqué par le New York Times, OpenAI demande un accès aux documents préparatoires des journalistes

Prouvez que vos articles sont bien protégés par le droit d’auteur américain, en me donnant accès aux travaux préparatoires (notes, interview) de vos journalistes : voilà la demande d’OpenAI dans le litige qui l’oppose au New York Times, une demande qualifiée d’invasive et sans précédent par le média américain. Ce dernier accuse OpenAI d’avoir utilisé ses articles pour former ChatGPT, sans autorisation.

Du « harcèlement et des représailles » pour le New York Times, un moyen de défense pour OpenAI, la société à l’origine de ChatGPT : aux États-Unis, la bataille juridique qui oppose le média américain à l’entreprise de Sam Altman, accusée d’avoir utilisé des articles de presse pour entraîner ChatGPT, bat son plein.

Et la dernière contre-attaque d’OpenAI a fait couler beaucoup d’encre, rapporte PressGazette le 23 juillet dernier. La société technologique a en effet demandé au New York Times, dans une requête déposée le 1ᵉʳ juillet dernier, de prouver que ses articles, qui auraient été utilisés à des fins de formation des LLMs, étaient bien des œuvres originales, protégées par le droit d’auteur américain.

Pour ce faire, la société technologique exige d’avoir accès aux documents et enregistrements préparatoires réalisés par des journalistes, en amont d’un article – ce pour chaque contenu journalistique cité par le New York Times. De quoi constituer un pied de nez au principe de protection des sources et du travail journalistiques, en plus d’être une demande irréaliste puisque 10 millions d’articles sont concernés, a répondu le New York Times dans une réponse envoyée au juge le 4 juillet dernier.

OpenAI accusée de parasitisme
En décembre dernier, après des mois de négociations infructueuses, le quotidien américain attaquait en justice OpenAI et son partenaire Microsoft. Le journal accusait l’entreprise technologique d’utiliser sans autorisation ses contenus journalistiques pour entraîner ChatGPT – un usage qui constitue selon le média du « parasitisme ».

OpenAI profiterait de ses investissements dans le journalisme pour développer ses propres produits qui concurrenceront bientôt le New York Times, estimait-il.

Or, le quotidien investit « une énorme quantité de temps, d’expertise et de talent » dans ses journalistes, notamment par le biais « d’enquêtes approfondies – qui prennent généralement des mois et parfois des années à rapporter et à produire – dans des domaines complexes et importants d’intérêt public », écrit-il dans son réquisitoire.

L’équivalent d’un siècle de travaux préparatoires de journalistes demandé
En retour, OpenAI a contre-attaqué. L’entreprise a demandé au juge de contraindre le New York Times à fournir « les notes (prises en amont d’un article par le) journaliste, les notes d’interview, les enregistrements des documents cités ou d’autres “fichiers” », afin de prouver que ce travail est bien protégé par le droit d’auteur.

Si une telle requête est accordée, s’alarme le quotidien américain dans sa lettre, un grand coup sera porté à la protection du travail journalistique et de ses sources. « Les conséquences négatives seront graves et de grande portée », car « cela impliquerait la divulgation des dossiers confidentiels des journalistes du New York Times sur des enquêtes portant sur des sujets très sensibles (…) ». Concrètement, la demande obligerait le quotidien à fournir l’équivalent d’un siècle de documents de journalistes, ajoute le média.

Une demande invasive et sans précédent, selon le New York Times
De son côté, OpenAI s’est défendu de chercher à obtenir des informations qui permettraient d’identifier des sources confidentielles. L’entreprise explique que le média américain ne peut l’attaquer que sur des œuvres protégées, ce qui exclurait tous les articles ou parties d’articles qui « copient l’œuvre d’un autre » ou qui utilisent des éléments tombés dans le domaine public.

La société de Sam Altman avance aussi que la protection des sources des journalistes « ne justifie pas la rétention des documents en question ici » parce qu’ils pourraient permettre de trancher cette question du droit d’auteur.

Mais pour le New York Times, il s’agit bel et bien d’une demande « sans précédent » et « invasive », qui « dépasse largement le cadre de ce qui est autorisé par les lois américaines, et ne sert à rien d’autre qu’au harcèlement et aux représailles », après la décision du quotidien de l’attaquer en justice. Son « processus de collecte d’informations, article par article, n’a aucun rapport avec la question de savoir s’il est habilité à faire respecter les millions de droits d’auteur qu’il a enregistrés au fil des ans ».

Ces notes ne sont pas des preuves de droit d’auteur, selon le média
Car le droit d’auteur ne fonctionne pas ainsi, poursuit le média : les notes des journalistes sur lesquelles se basent les œuvres revendiquées ne permettent pas de prouver l’existence ou non d’un droit d’auteur. Selon le quotidien, la loi américaine sur le copyright protège « la structure, le choix des mots et l’analyse ou l’interprétation des événements par l’auteur » – en d’autres termes, la forme d’un texte.

« Et même dans le cas improbable où les notes d’un journaliste montreraient que 90 % d’un article sont des citations textuelles des sources originales de l’auteur, cet article serait toujours protégé par le droit d’auteur », rapporte-t-il.

Contrairement au droit français, le copyright américain nécessite que l’auteur passe par un enregistrement de son œuvre. Pour intenter une action en justice outre Atlantique pour violation du droit d’auteur, il faut disposer d’un tel enregistrement : des certificats que possède bien le New York Times, et qui constituent « une preuve à première vue de la titularité du droit d’auteur », a expliqué Jason Bloom, avocat spécialisé dans la propriété intellectuelle, chez nos confrères de Bloomberg.

Cette requête nécessiterait de masquer les sources – un travail titanesque et coûteux
La demande d’OpenAI impliquerait par ailleurs que pour chaque jeu de documents correspondant à un article soit masquée l’identité des sources confidentielles. Cette tâche incomberait au média, ce qui constituerait un fardeau bien trop lourd, si tant est que cela soit possible.

« En tout état de cause, les fichiers sources des journalistes dans leur ensemble sont protégés par le “privilège des journalistes” (un équivalent du principe de la protection des sources, NDLR), que ces fichiers révèlent ou non l’identité de sources confidentielles », écrit le New York Times. Ce dernier a déjà partagé ces certificats d’enregistrements, ainsi que des documents financiers prouvant son investissement dans le journalisme, précise-t-il dans sa lettre.

Pour le média, OpenAI chercherait, avec une telle requête, à avoir un effet dissuasif.

Les organes de presse ne seraient pas en capacité de répondre à une telle demande d’accès aux documents préparatoires des journalistes, puisqu’il lui faudrait identifier et supprimer ses sources – une tâche titanesque qui n’a jamais été demandée, et qui coûterait extrêmement cher. Ce qui pourrait avoir une conséquence : dissuader d’autres médias de se lancer dans une action en justice similaire contre OpenAI et d’autres développeurs d’IA générative.

PressGazette

You may like