Malgré les réticences de plusieurs employés, Meta a eu recours au torrenting pour télécharger 82 To de livres depuis des plateformes illégales. L’entreprise a aussi mis en place des systèmes pour empêcher qu’on ne remonte jusqu’à elle.
Aux États-Unis, Meta est en plein procès pour violation de droits d’auteur, suite à un recours collectif qui accuse l’entreprise d’avoir entraîné illégalement ses modèles d’IA sur des livres protégés. Des documents issus de l’affaire sont en train d’être rendus publics, et permettent de se rendre compte de l’ampleur du piratage réalisé par la firme de Mark Zuckerberg, qui avait tout à fait conscience de ce qu’elle faisait et qui a tenté de dissimuler ses traces pour qu’on ne remonte pas jusqu’à elle.
Meta a téléchargé par torrent “au moins 81,7 téraoctets de données dans plusieurs bibliothèques fantômes via le site Anna’s Archive, dont au moins 35,7 téraoctets de données venant de Z-Library et LibGen”, rapporte un dossier judiciaire.
“L’ampleur du système de téléchargement illégal de fichiers torrent de Meta est stupéfiante”, ajoutent les auteurs du rapport. Ils précisent que “des actes de piratage de données bien plus modestes” (à peine 0,008 % du volume d’œuvres protégées par le droit d’auteur piratées par Meta) ont conduit les juges à ouvrir une enquête criminelle, sous-entendant qu’il serait logique que ce soit aussi le cas pour Meta.
Piratage massif d’œuvres protégées par le droit d’auteur
Dans le cadre de cette affaire, des emails internes ont été dévoilés, confirmant que les employés de Meta avaient bien conscience que les pratiques de l’entreprise sont au mieux immorales, au pire illégales. “Je ne pense pas que nous devrions utiliser du matériel piraté. Je dois vraiment fixer une limite à ce sujet”, a par exemple écrit un chercheur senior au sein de Meta AI.
“L’utilisation de matériel piraté devrait dépasser notre seuil éthique […] SciHub, ResearchGate, LibGen sont fondamentalement comme PirateBay ou d’autres services de ce type, ils distribuent du contenu protégé par le droit d’auteur et ils le violent”, a déclaré un autre chercheur de Meta AI. “Télécharger des torrents depuis un ordinateur portable d’entreprise ne me semble pas approprié”, a réagi un troisième employé.
Mark Zuckerberg assure ne pas avoir été impliqué dans les décisions menant à l’usage de LibGen pour former des modèles d’IA.
Mais plusieurs témoignages contredisent cette version. L’information aurait bien été remontée auprès du patron de Meta, qui n’aurait pas mis de veto pour empêcher cette pratique. Pire, il l’aurait encouragée, déclarant pendant une réunion tenue en janvier 2023 qu’il fallait “faire avancer les choses” et “trouver un moyen de débloquer cela”.
Meta a tenté de dissimuler son recours aux torrents
Un autre reproche adressé à Meta est sa tentative de couvrir ses traces, prouvant que le groupe était bien conscient qu’il risquait des ennuis s’il était découvert. Nikolay Bashlyko, ingénieur de recherche chez Meta, s’inquiétait en avril 2023 de “l’utilisation des adresses IP de Meta pour télécharger du contenu pirate via des torrents”.
Quelques mois plus tard, dans une conversation avec le service juridique de l’entreprise, il rappelait que le principe même du torrenting impliquait de participer au partage de ces fichiers piratés avec des tiers, “ce qui pourrait être légalement inacceptable”.
Meta a entendu ses craintes, mais a préféré mettre en place des systèmes pour dissimuler son activité plutôt que d’y mettre un terme.
Frank Zhang, un chercheur de Meta, parle dans un message interne de l’instauration d’un “mode furtif” pour le piratage. Celui-ci consiste à éviter d’utiliser les serveurs de Facebook lors du téléchargement des ensembles de données afin d’éviter le risque que l’on puisse “remonter la piste” du seeder ou du downloader.
Entendu par les autorités, un certain Michael Clark, cadre de Meta en charge de la gestion du projet, a admis que la société avait modifié des paramètres pour produire le moins de traces possibles. On imagine qu’il s’agit par exemple d’options permettant de télécharger des torrents, sans les partager en retour.
Par ailleurs, il a été question de recourir à un VPN pour télécharger toutes ces données tout en masquant les adresses IP de Meta.
Ces détails risquent d’être primordiaux devant la justice, car l’un des axes de défense de Meta était jusqu’ici qu’il n’avait pas contribué au partage de contenus piratés. Un argument mis à mal par le recours au torrenting, qui signifie que Meta a bien tenu le rôle de distributeur. Toutefois, le fait que les plaignants ne puissent pas identifier exactement quels textes ont été piratés rend leur tâche bien compliquée pour obtenir d’éventuels dommages et intérêts.
Ars Technica