Guillaume Lample, cofondateur de Mistral AI, est au centre d'une polémique en lien avec son passage chez Meta. Il aurait utilisé d'immenses bases de données en ne respectant sciemment pas les droits d'auteurs.

©Rokas Tenys / Shutterstock
©Rokas Tenys / Shutterstock

L'IA, ce sont des énormes moteurs dont le combustible est les données. Ce qui a poussé les grands spécialistes du secteur à en chercher absolument partout où ils le pouvaient, et souvent au mépris du droit d'auteur, ce qui a entraîné outra-Atlantique un certain nombre de procès, à l'image de celui opposant le New York Times à OpenAI. Une façon de faire qui a répercussions aujourd'hui dans notre pays.

Guillaume Lample aurait ordonné le téléchargement de 70 To de livres aux droits protégés

Guillaume Lample est avec Timothée Lacroix et Arthur Mensch un des confondateurs du fleuron français de l'intelligence artificielle, Mistral AI - né en 2023. Avant cela, il officiait au sein d'une des plus grands entreprises de la tech au monde, Meta.

Un passage à l'occasion duquel il se serait rendu coupable de certaines indélicatesses, selon Mediapart, qui s'appuie sur les milliers de pages rendues publiques de l'affaire « Kadrey v. Meta Platforms Inc. ».

On y apprend ainsi qu'il aurait ordonné à ses équipes de télécharger 70 To de données issues de la bibliothèque pirate Library Genesis, qui rassemble des livres et des articles scientifiques protégés pourtant par les droits d'auteur.

© Skorzewiak / Shutterstock
© Skorzewiak / Shutterstock

OpenAI et Google utilisés comme excuses

Les pages disponibles à la consultation publique nous offrent notamment un accès direct aux échanges internes chez Meta. On peut ainsi lire une discussion dans laquelle une chercheuse de Meta s'oppose à l'utilisation de cette base de données, une « ligne rouge » selon elle.

« Tout le monde utilise LibGen. C'est ce qu'OpenAI fait avec GPT3, ce que Google fait avec Palm, ce que DeepMind fait avec Chinchilla. Donc on va le faire aussi » lui a-t-il répondu. Son rôle dans le téléchargement ultérieur de cette base de données est confirmé par les journaux de téléchargement, même si elle n'a finalement pas été utilisée pour le développement de la première version de Llama, qui été publiée en février 2023 (et dont Guillaume Lample ainsi que Thimothée Lacroix, sont des co-signataires).

La question se pose maintenant de savoir quelles données ont pu être utilisées pour le lancement en septembre 2023 de Mistral 7B, le premier modèle de Mistral AI. Car comme le rappelle Mediapart, un mail interne de Meta en date du 19 décembre 2025 indique que l'équipe de recherche « sait, par le bouche-à-oreille, que OpenAI et Mistral utilisent LibGen pour leurs modèles. » Pour le moment, ni Guillaume Lample ni Mistral AI n'ont fait de commentaires sur le sujet.

Source : Mediapart

À découvrir
Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025
15 septembre 2025 à 11h58
Comparatifs services