NVIDIA se retrouve sous le feu des projecteurs après le dépôt d’une plainte amendée dans le cadre d’une action collective intentée par plusieurs auteurs américains. En cause : l’utilisation présumée de millions de livres piratés pour entraîner ses modèles d’intelligence artificielle. Les plaignants s’appuient désormais sur des documents internes et des échanges qui suggèrent que le géant des puces aurait directement sollicité une vaste bibliothèque pirate afin d’accéder à ces données.

La polémique enfle autour de Nvidia qui aurait eu accès à une "bibliothèque de l'ombre" pour entrainer ses IA. © Matt Gush / Shutterstock
La polémique enfle autour de Nvidia qui aurait eu accès à une "bibliothèque de l'ombre" pour entrainer ses IA. © Matt Gush / Shutterstock

Cette nouvelle étape judiciaire élargit sensiblement le périmètre de l’affaire. Au-delà du jeu de données Books3, déjà au cœur des premières accusations, la plainte évoque des pratiques plus structurées et assumées, dans un contexte de forte pression concurrentielle autour du développement des grands modèles de langage.

Un contact direct avec une « bibliothèque de l’ombre »

Selon les éléments versés au dossier, un membre de l’équipe data de NVIDIA aurait contacté Anna’s Archive, l’une des plus grandes bibliothèques pirates en ligne, afin d’évaluer les conditions d’un accès massif à ses collections. Les échanges mentionneraient la possibilité d’intégrer ces contenus dans les données de pré-entraînement des modèles d’IA du groupe, ainsi qu’un accès « haut débit » à plusieurs centaines de téraoctets de données, représentant potentiellement des millions d’ouvrages protégés par le droit d’auteur.

Toujours d’après la plainte, la plateforme aurait averti NVIDIA du caractère illégal de ces collections, avant que la direction ne donne son feu vert pour poursuivre les discussions. Le document ne précise pas si une transaction financière a effectivement eu lieu, mais évoque un accès qui aurait été accordé dans un délai très court.

Les auteurs accusent également NVIDIA d’avoir exploité d’autres sources controversées, comme LibGen, Sci-Hub ou Z-Library, et d’avoir diffusé des outils facilitant l’accès à certains jeux de données piratés auprès de partenaires et clients professionnels.

Une affaire emblématique des tensions autour de l’IA

NVIDIA conteste ces accusations et maintient que l’entraînement de ses modèles relève du « fair use », estimant que les œuvres servent uniquement à établir des corrélations statistiques. Un argument déjà avancé par d’autres acteurs de l’IA, mais de plus en plus contesté devant les tribunaux.

Au-delà du cas NVIDIA, cette affaire illustre les tensions croissantes entre les géants de la tech, les auteurs (et autres créateurs de contenus) et les ayants droit. Elle pose aussi une question centrale pour l’industrie : jusqu’où les entreprises peuvent-elles aller pour alimenter leurs modèles, dans un contexte de course à la performance et de rareté des données de qualité ?

Si la justice américaine devait donner raison aux plaignants, les conséquences pourraient dépasser largement le cadre de ce dossier et redéfinir les pratiques d’entraînement des IA à l’échelle du secteur.