Meta avoue avoir entraîné son IA avec des livres... piratés !

15 janvier 2024 à 17h25
8
 Llama 2, un rat de bibliothèque hors-la-loi ? © Vasilyev Alexandr / Shutterstock
Llama 2, un rat de bibliothèque hors-la-loi ? © Vasilyev Alexandr / Shutterstock

Meta se retrouve au cœur d'une polémique. En effet, la société admet qu'elle a entraîné ses modèles d'IA grâce à un ensemble de livres piratés. De quoi raviver les flammes du débat concernant les droits d'auteur et l'intelligence artificielle.

Les géants de la tech, lorsqu'ils sont confrontés à la problématique des droits d'auteur quand il s'agit de l'IA, joue souvent à un jeu dangereux. Meta ne fait pas exception et répond actuellement à une action en justice entamée par plusieurs auteurs : oui, l'entreprise aurait bien utilisé une partie de la base de données Books3 (qui inclue de nombreux livres piratés) afin d'entraîner ses modèles Llama. Une révélation plutôt scandaleuse, quand on connaît l'effort de vigilance dont font preuve les détenteurs de droits d'auteur pour se faire respecter.

Books3 : un outil controversé au service de l'IA

Books3 est une base de données créée en 2020 par Shawn Presser, un chercheur en IA. Celle-ci rassemblait près de 37 Go de livres piratés (environ 200 000 ouvrages) issus du site Bibliotik et était hébergée par le collectif baptisé The Eye. L'idée était de favoriser l'innovation dans le domaine de l'IA.

Meta et d'autres, comme OpenAI, ont donc pioché allégrement dans cette base de données pour affiner leurs modèles d'IA générative. Une utilisation à la limite de la légalité, qui a nécessairement attiré l'attention des éditeurs et des auteurs.

  Aveu de Meta à un tribunal fédéral de Californie. L'entreprise "avoir utilisé des extraits de la base de données Books3 pour l'entraînement de son modèle d'IA Llama © Capture d'écran / Meta
Aveu de Meta à un tribunal fédéral de Californie. L'entreprise "avoir utilisé des extraits de la base de données Books3 pour l'entraînement de son modèle d'IA Llama © Capture d'écran / Meta

Réaction des détenteurs de droits et implications légales

Un ensemble assez varié de détenteurs de droits s'est donc rebiffé contre Meta, OpenAI et d'autres entreprises développant des modèles d'IA hors du cadre légal. Parmi ceux-ci, on peut trouver : des auteurs individuels, des maisons de disque, des artistes du domaine visuel et même le New York Times.

La majorité de ces poursuites comportent un volet lié au piratage et accusent ces sociétés d'user de contenus protégées sans proposer de compensation adéquate. Sous la pression d'un collectif danois anti-piratage, Rights Alliance, The Eye a supprimé Books3 lors de l'été 2023.

La défense de Meta

Lors d'un procès intenté par Sarah Silverman (comédienne, chanteuse et écrivaine), Richard Kadrey (écrivain) et d'autres détenteurs de droits, Meta a avoué. Elle aurait bien utilisé des parties de Books3 afin de muscler le jeu de ses deux modèles d'IA, Llama 1 et Llama 2. Cependant, elle a nié d'autres allégations proférées à son encontre. Pour sa défense, l'entreprise a invoqué le fair use (utilisation équitable), un élément de défense juridique qui pourrait bien faire pencher la balance de leur côté.

Aussi contradictoire que cela puisse paraître, la doctrine légale du fair use permet l'utilisation de matériel protégé par le droit d'auteur sans pour autant avoir la permission des détenteurs des droits. Certaines circonstances spécifiques sont cependant nécessaires pour que cette doctrine soit appliquée. Meta tient la ligne de défense suivante : elle reconnaît avoir utilisé Books3, mais conteste entièrement la nécessité d'obtenir le consentement ou d'offrir une compensation pour avoir utilisé ces œuvres protégés. Une position franchement contestable au vu de la hausse de leur chiffre d'affaires plutôt importante sur l'année 2023 permise grâce à l'engouement autour de l'intelligence artificielle.

Cette affaire juridique mettant en tension l'IA et les droits d'auteur est loin d'être la dernière. En tout cas, tant qu'une réglementation ferme ne définira pas de nouveaux standards éthiques et juridiques encadrant l'industrie de l'intelligence artificielle. Cet ensemble de procès, qui pourrait atteindre la Cour suprême, pourrait avoir des répercussions positives sur cet aspect précis. Enfin, ça, c'est si l'on considère cette problématique d'un point de vue optimiste.

Source : Torrent Freak

Camille Coirault

Une fois réveillé dans le bateau arrivé en Morrowind, j’avais mis le doigt dans l'engrenage. Un autre de mes doigts fut lui aussi coincé entre les pages des livres d’auteurs classiques : Charles Baud...

Lire d'autres articles

Une fois réveillé dans le bateau arrivé en Morrowind, j’avais mis le doigt dans l'engrenage. Un autre de mes doigts fut lui aussi coincé entre les pages des livres d’auteurs classiques : Charles Baudelaire, Émile Zola, Choderlos de Laclos ou Victor Hugo pour ne citer qu’eux. Vingt ans après, quelques milliers d'heures à jouer, à lire, et me voilà ! Mon coeur balance toujours entre ma passion de la tech, des jeux vidéo et mon amour incommensurable pour les Lettres. Spoiler : je n’ai pas choisi et cela ne risque pas d’arriver de sitôt.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (8)

a-snowboard
«&nbsp;Une utilisation à la limite de la légalité, qui a nécessairement attiré l’attention des éditeurs et des auteurs.&nbsp;»<br /> Utiliser des livres piratés, c’est à a la limite de la légalité ? Pinaise, vous arrivez carrément à faire une relecture du droit !<br /> Sinon pour revenir à l’actu, la sanction devrait être simple : arrêt de toute activité IA de la part des entreprises qui ont utilisés des ressources illégales, amende record et impossibilité de générer un nouvel IA sans suppervision extérieure avant 5ans.<br /> Ca devrait calmer tout le monde.<br /> Mais bon, ils ont tout compris : on fait, si ça passe tant mieux, si on se fait chopper, on s’excuse, on paye, mais au moins on aura fait et entrainé notre IA.<br /> En gros, vaut mieux faire la connerie et demander le pardon, ça sera moins couteux que de faire bien comme il faut.<br /> Monde de m***
gothax
La justice n’a-t-elle pas une balance à l’équilibre ? Pas dans ce monde<br /> J’interdirais méta … Soyons fou<br /> D’accord avec @a-snowboard
PEPSIMAX
A la limite de la limite de la limite de l’illégalité. Après on se demande pourquoi tous ces GAFAM n’ont pas fait grand chose contre le piratage finalement…
V-Luminis
Bonjour,<br /> La pratique me révulse aussi, mais je suis obligé de rester factuel. La doctrine du «&nbsp;fair use&nbsp;» aux USA pourrait bien protéger Meta. C’est ce qu’on appelle un vide juridique, malheureusement. Aucune relecture du droit de ma part, je ne suis pas juriste et n’ai pas les compétences pour me prononcer avant les juges fédéraux. Je ne fais que reporter un fait d’actualité, ce qui ne signifie pas que je suis d’accord avec ce genre de pratiques.
Squeak
Petit à petit, les langues se délient. Après, je ne suis pas sûr qu’il va y avoir des sanctions puisque maintenant les modèles d’IA sont là et utilisés massivement, mais bon, voilà encore une petite tache sur le tableau des IA… Il ne faut pas rêver, ils ne vont pas refaire l’IA en partant de zéro (sur une bonne base), il faut faire avec.
Breizhoo
«&nbsp;Meta admet qu’elle a entraîné ses modèles d’IA grâce à 37 Go de livres piratés (environ 200 000 ouvrages)&nbsp;»<br /> «&nbsp;Une utilisation à la limite de la légalité&nbsp;»<br />
ayaredone
Ils auraient dû lui prendre une carte à la bibliothèque
youmetooandyou
chatGPT s’est entraîné sur quoi au fait ?
Voir tous les messages sur le forum
Haut de page

Sur le même sujet