Mistral AI : l'enquête qui révèle un pillage massif d'œuvres protégées

Par Naïm Bada, Spécialiste logiciel et intelligence artificielle.

Publié le 23 février 2026 à 12h36

Suivez-nous Ajoutez-nous en favori Google

Le champion français de l'IA générative se voulait différent des géants américains. Une enquête de Mediapart publiée ce 23 février 2026 remet sérieusement en cause cette image. Harry Potter, Le Petit Prince, Elton John : le catalogue des infractions présumées donne le vertige.

Mistral © Shutterstock

Les grands laboratoires d'IA font face à des dizaines de procédures judiciaires pour avoir utilisé des contenus protégés sans autorisation. Meta a particulièrement défrayé la chronique, grâce aux révélations de lanceurs d'alerte qui ont documenté ces pratiques. Pour Mistral AI, l'argument implicite tenait en un mot : l'exception française. L'enquête de Mediapart, signée Clément Pouré et Soizic Pénicaud, le fragilise de façon convaincante. Pour en mesurer la portée, il faut d'abord comprendre comment ces modèles sont construits, et ce que leur opacité dissimule.

Livres, chansons : les tests qui mettent Mistral en difficulté

Mediapart a soumis Mistral Large 3-2512, le modèle le plus récent de l'entreprise, à une batterie de tests. Les journalistes ont travaillé avec Paul Bouchaud, chercheur postdoctoral au CNRS spécialiste de l'audit algorithmique. La démarche s'appuie sur une méthode validée par des universités comme Stanford ou Yale. La capacité d'un modèle à restituer des textes protégés est un indicateur fort de leur présence dans les données d'entraînement. On l'avait d'ailleurs constaté avec d'autres systèmes d'IA confrontés au premier tome de Harry Potter.

Le chat Mistral

Peut tourner en local selon votre configuration
Open-source
API peu coûteuse

Télécharger

Selon Mediapart, Mistral Large 3 a restitué 35% de la version anglaise de Harry Potter à l'école des sorciers, en lui soumettant les paragraphes un par un. Il a également restitué 58% du Petit Prince de Saint-Exupéry et 25% du Hobbit de Tolkien. Les incipits de 1984 de George Orwell et du Trône de Fer de George R.R. Martin s'obtiennent sans aucune résistance. « Lorsqu'un modèle reproduit 25, 35 ou 58% d'un livre en le sollicitant paragraphe par paragraphe, les informaticiens s'accordent généralement à considérer qu'il s'agit d'un indicateur fort que le modèle a été entraîné sur l'œuvre intégrale », précise à Mediapart Luc Rocher, professeur associé à l'université d'Oxford.

À découvrir

"Tout le monde le fait, donc nous aussi" : les méthodes pirates du cofondateur de Mistral AI dévoilées

24 décembre 2025 à 12h11

News

Le tribunal de Munich a posé un seuil lors de sa condamnation historique d'OpenAI le 11 novembre 2025 : 15 mots consécutifs reproduits mot pour mot peuvent suffire à caractériser la contrefaçon. En appliquant cette méthode aux logiciels de Mistral, Mediapart a obtenu des extraits franchissant ce seuil pour plus d'une centaine de titres. Parmi eux : Rocket Man d'Elton John, Ma Philosophie d'Amel Bent ou Il est cinq heures, Paris s'éveille de Jacques Dutronc. Trois artistes ayant signé des pétitions contre l'utilisation non autorisée de leurs œuvres. Interrogé par Mediapart, Mistral invoque un « principe de réalité ». Ces contenus très populaires étant largement reproduits en ligne, ses robots les auraient collectés au passage.

L'opacité n'est pas un bug, c'est un calcul

L'enquête de Mediapart documente également le non-respect des mécanismes d'opposition. Ce dispositif permet aux éditeurs et aux médias d'interdire aux robots d'IA de collecter leurs données. Une directive européenne de 2019 autorise le moissonnage automatisé de contenus protégés. À condition que les titulaires de droits puissent s'y opposer, via leur fichier robots.txt. Mistral AI affirme respecter ce mécanisme.

Sauf qu'entre le 7 et le 12 février, les serveurs de Mistral ont généré plus de 2 800 requêtes sur le site de Mediapart, qui leur avait pourtant fermé la porte quatre jours plus tôt. Radio France, opposée au moissonnage depuis 2021 dans ses conditions générales, a confirmé le même phénomène avant de bloquer manuellement les robots concernés. La réponse de Mistral : ces robots « enrichissent les réponses apportées aux utilisateurs » et ne servent pas à constituer des données d'entraînement.

Les chatbots doivent normalement intégrer des garde-fous pour ce type d'extraction d'oeuvres. © Shutterstock

L'argument laisse sceptique. Céline Castets-Renard, professeure à l'université d'Ottawa et corédactrice du code de bonnes pratiques européen sur l'IA, formule le calcul industriel en clair dans les colonnes de Mediapart : « Le pari actuel de toutes les entreprises d'IA générative est sans doute de devenir hégémoniques avant que les décisions de justice ne tombent. » On se souvient que des artistes alertaient déjà sur ce glissement bien avant que Mistral ne soit visé.

Ce n'est pas un détail. Claude, ChatGPT et consorts ont mis en place des mécanismes de filtrage (avec une rigueur bien inégale) pour limiter la restitution d'extraits protégés. Mistral, pourtant premier signataire du code de bonnes pratiques européen, ne l'a pas fait. Et ce n'est pas la première fois que la start-up se retrouve dans le viseur en France. L'AI Act prévoit des amendes jusqu'à 15 millions d'euros pour ce type de manquement.

Ce n'est sans doute pas un hasard. Fin janvier, Mistral a combattu une proposition de loi sénatoriale transpartisane à l'Assemblée nationale. Ce texte présumerait qu'une œuvre protégée a pu être utilisée par une IA, renversant la charge de la preuve. Sa directrice des affaires publiques a qualifié le texte de « prime au contentieux » auprès de Mediapart. Elle a ajouté que des contentieux rendraient difficile la levée de fonds. La franchise est presque admirable.

Par Naïm Bada

Spécialiste logiciel et intelligence artificielle

Intelligence artificielle

Actualités High-Tech

Comparer

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (7)

sebstein

J’ai un peu de mal avec l’idée que l’on qualifie de pillage ou piratage de fait de nourrir une IA avec es œuvres sous licence. Si elles ont été achetées par Mistral, le fait qu’elles soient utilisées pour entraîner l’IA n’est ni de la copie, ni de la diffusion.
L’humain fait exactement la même chose quand on lui demande d’analyser une œuvre dans un cours de français.
Le fait que ce modèle répète ensuite l’œuvre de manière un peu trop similaire est, certes, problématique.

G29

Si j’ai lu un livre, au hasard « une vie » de Simone Veil, je vais me servir de cette lecture pour me forger une opinion « citoyenne » et la partager avec combien : 50 personnes ? Quelles conséquences ? Inciter des personnes à acheter et lire le livre ? Car, de mémoire, je ne vais pouvoir évoquer que des idées générales sur ce livre, pas le restituer mot pour mot sur 300 pages.

BlackPanther

C’est pas aussi simple que tu le crois, c’est l’une des questions les plus complexes et controversées du droit actuel.

Le fait d’acheter une oeuvre ne te permet pas d’en faire ce que tu veux, et Mistral ni aucune entreprise IA n’achète toutes les données qu’elles utilisent sinon une bonne partie de l’argent va partir dans les droits

Ahhh bon t’es sûr ? c’est très flatteur de penser qu’un humain possède la capacité d’analyse d’une machine à plusieurs millions $

@G29 a bien répondu, je pense que si les détenteurs de droits d’auteur croyaient qu’un humain avait la capacité que possède l’IA, on aurait pas les mêmes lois que celles qu’on a aujourd’hui

Beh tu vois quand tu réfléchis. Tout le monde se cache justement sur le fait que l’IA n’est pas capable de reproduire fidèlement une oeuvre, mais rien que le fait qu’elle peut s’en approcher pose problème. certes l’IA n’est pas faite pour reproduire des oeuvres, ce n’est pas le but de ces technologies et elle n’en est pas capable sans faire d’erreurs mais disons que les LLM ont une fenêtre de contexte de plus en plus grande, elles peuvent travailler sur plusieurs paragraphes et pages et elles peuvent en garder une bonne partie. et puis qui sait ce que les entreprises IA font avec les données ?!

hhhh tkt même l’IA ne peut pas le faire, elle ne garde presque pas grand chose du livre après l’entraînement, en tous cas pour l’instant mais rien ne dit qu’à l’avenir elle ne peut pas.

Mieux_vaut_en_rire

Une boite française a peu pret compétitive ?
Vite, fusillons la !

sebstein

Une IA non plus, ce n’est pas une base de données, il faut se renseigner un minimum sur son fonctionnement.

G29

La vectorisation n’empêche pas l’IA de ressortir parfois mots pour mots des portions de texte

BlackPanther

Tu as parlé de 300 pages, ce n’est pas des portions ça

Bien sûr qu’elle sort des portions de texte c’est son fonctionnement de base, elle se base sur la prédiction, à ton avis comment elle sait qu’il y a souvent un verbe qui accompagne le nom et aussi un complément d’objet ? l’IA ne connait pas la grammaire mais elle enregistre des schémas et sans ça elle est inutilisable.