NVIDIA au coeur d’une polémique : des millions de livres piratés pour entraîner son IA ?

NVIDIA se retrouve sous le feu des projecteurs après le dépôt d’une plainte amendée dans le cadre d’une action collective intentée par plusieurs auteurs américains. En cause : l’utilisation présumée de millions de livres piratés pour entraîner ses modèles d’intelligence artificielle. Les plaignants s’appuient désormais sur des documents internes et des échanges qui suggèrent que le géant des puces aurait directement sollicité une vaste bibliothèque pirate afin d’accéder à ces données.

La polémique enfle autour de Nvidia qui aurait eu accès à une "bibliothèque de l'ombre" pour entrainer ses IA. © Matt Gush / Shutterstock

Cette nouvelle étape judiciaire élargit sensiblement le périmètre de l’affaire. Au-delà du jeu de données Books3, déjà au cœur des premières accusations, la plainte évoque des pratiques plus structurées et assumées, dans un contexte de forte pression concurrentielle autour du développement des grands modèles de langage.

Mise à jour du 04/02/2026 : NVIDIA a depuis contesté ces accusations et demandé le rejet de la plainte amendée. Un article de suivi est disponible en cliquant sur le lien ci-dessous.

À découvrir

Accusé d’avoir entraîné son IA avec des livres piratés, NVIDIA riposte

04 février 2026 à 19h06

News

Un contact direct avec une « bibliothèque de l’ombre »

Selon les éléments versés au dossier, un membre de l’équipe data de NVIDIA aurait contacté Anna’s Archive, l’une des plus grandes bibliothèques pirates en ligne, afin d’évaluer les conditions d’un accès massif à ses collections. Les échanges mentionneraient la possibilité d’intégrer ces contenus dans les données de pré-entraînement des modèles d’IA du groupe, ainsi qu’un accès « haut débit » à plusieurs centaines de téraoctets de données, représentant potentiellement des millions d’ouvrages protégés par le droit d’auteur.

Toujours d’après la plainte, la plateforme aurait averti NVIDIA du caractère illégal de ces collections, avant que la direction ne donne son feu vert pour poursuivre les discussions. Le document ne précise pas si une transaction financière a effectivement eu lieu, mais évoque un accès qui aurait été accordé dans un délai très court.

À découvrir

Google part en guerre contre la plus grosse archive de livres piratés au monde

News

Les auteurs accusent également NVIDIA d’avoir exploité d’autres sources controversées, comme LibGen, Sci-Hub ou Z-Library, et d’avoir diffusé des outils facilitant l’accès à certains jeux de données piratés auprès de partenaires et clients professionnels.

Une affaire emblématique des tensions autour de l’IA

NVIDIA conteste ces accusations et maintient que l’entraînement de ses modèles relève du « fair use », estimant que les œuvres servent uniquement à établir des corrélations statistiques. Un argument déjà avancé par d’autres acteurs de l’IA, mais de plus en plus contesté devant les tribunaux.

Au-delà du cas NVIDIA, cette affaire illustre les tensions croissantes entre les géants de la tech, les auteurs (et autres créateurs de contenus) et les ayants droit. Elle pose aussi une question centrale pour l’industrie : jusqu’où les entreprises peuvent-elles aller pour alimenter leurs modèles, dans un contexte de course à la performance et de rareté des données de qualité ?

Si la justice américaine devait donner raison aux plaignants, les conséquences pourraient dépasser largement le cadre de ce dossier et redéfinir les pratiques d’entraînement des IA à l’échelle du secteur.

Source : Torrent Freak

Par Matthieu Legouge

Chef de rubrique Audio/Vidéo

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (2)

yorrha

Si une décision entraîne un devoir de destruction des jeux de données, ce serait absolument catastrophique pour le monde de l’IA.
Les données disponibles en source pirate sont virtuellement illimitées, les accords de licence nécessitent des négociations et sont lents. Alors que les boîtes veulent juste ingérer des données.
Une licence globale obligatoire semble la chose la plus réaliste, mais c’est parce que ce sont des multimilliardaires qui « piratent » et qu’il ne faut pas ralentir l’industrie autour de l’IA. Et cela engendrera inévitablement des tensions internationales.

Mecano

C’est vrai que c’est chiants ces gens qui ne veulent pas que l’on pille gratuitement leur travail… Tout ça pour de gentilles IA qui vont entraîner des centaines de milliers de destructions d’emplois… Mais où allons-nous si on ne peut plus se faire de l’argent au détriment des autres tout en détruisant l’emploi et la vie d’encore d’autres ? quelle bande de communistes !

NVIDIA au coeur d’une polémique : des millions de livres piratés pour entraîner son IA ?

Un contact direct avec une « bibliothèque de l’ombre »

Une affaire emblématique des tensions autour de l’IA

Vidéos