Le champion français de l'IA générative se voulait différent des géants américains. Une enquête de Mediapart publiée ce 23 février 2026 remet sérieusement en cause cette image. Harry Potter, Le Petit Prince, Elton John : le catalogue des infractions présumées donne le vertige.

Les grands laboratoires d'IA font face à des dizaines de procédures judiciaires pour avoir utilisé des contenus protégés sans autorisation. Meta a particulièrement défrayé la chronique, grâce aux révélations de lanceurs d'alerte qui ont documenté ces pratiques. Pour Mistral AI, l'argument implicite tenait en un mot : l'exception française. L'enquête de Mediapart, signée Clément Pouré et Soizic Pénicaud, le fragilise de façon convaincante. Pour en mesurer la portée, il faut d'abord comprendre comment ces modèles sont construits, et ce que leur opacité dissimule.
Livres, chansons : les tests qui mettent Mistral en difficulté
Mediapart a soumis Mistral Large 3-2512, le modèle le plus récent de l'entreprise, à une batterie de tests. Les journalistes ont travaillé avec Paul Bouchaud, chercheur postdoctoral au CNRS spécialiste de l'audit algorithmique. La démarche s'appuie sur une méthode validée par des universités comme Stanford ou Yale. La capacité d'un modèle à restituer des textes protégés est un indicateur fort de leur présence dans les données d'entraînement. On l'avait d'ailleurs constaté avec d'autres systèmes d'IA confrontés au premier tome de Harry Potter.

- Peut tourner en local selon votre configuration
- Open-source
- API peu coûteuse
Selon Mediapart, Mistral Large 3 a restitué 35% de la version anglaise de Harry Potter à l'école des sorciers, en lui soumettant les paragraphes un par un. Il a également restitué 58% du Petit Prince de Saint-Exupéry et 25% du Hobbit de Tolkien. Les incipits de 1984 de George Orwell et du Trône de Fer de George R.R. Martin s'obtiennent sans aucune résistance. « Lorsqu'un modèle reproduit 25, 35 ou 58% d'un livre en le sollicitant paragraphe par paragraphe, les informaticiens s'accordent généralement à considérer qu'il s'agit d'un indicateur fort que le modèle a été entraîné sur l'œuvre intégrale », précise à Mediapart Luc Rocher, professeur associé à l'université d'Oxford.
Le tribunal de Munich a posé un seuil lors de sa condamnation historique d'OpenAI le 11 novembre 2025 : 15 mots consécutifs reproduits mot pour mot peuvent suffire à caractériser la contrefaçon. En appliquant cette méthode aux logiciels de Mistral, Mediapart a obtenu des extraits franchissant ce seuil pour plus d'une centaine de titres. Parmi eux : Rocket Man d'Elton John, Ma Philosophie d'Amel Bent ou Il est cinq heures, Paris s'éveille de Jacques Dutronc. Trois artistes ayant signé des pétitions contre l'utilisation non autorisée de leurs œuvres. Interrogé par Mediapart, Mistral invoque un « principe de réalité ». Ces contenus très populaires étant largement reproduits en ligne, ses robots les auraient collectés au passage.
L'opacité n'est pas un bug, c'est un calcul
L'enquête de Mediapart documente également le non-respect des mécanismes d'opposition. Ce dispositif permet aux éditeurs et aux médias d'interdire aux robots d'IA de collecter leurs données. Une directive européenne de 2019 autorise le moissonnage automatisé de contenus protégés. À condition que les titulaires de droits puissent s'y opposer, via leur fichier robots.txt. Mistral AI affirme respecter ce mécanisme.
Sauf qu'entre le 7 et le 12 février, les serveurs de Mistral ont généré plus de 2 800 requêtes sur le site de Mediapart, qui leur avait pourtant fermé la porte quatre jours plus tôt. Radio France, opposée au moissonnage depuis 2021 dans ses conditions générales, a confirmé le même phénomène avant de bloquer manuellement les robots concernés. La réponse de Mistral : ces robots « enrichissent les réponses apportées aux utilisateurs » et ne servent pas à constituer des données d'entraînement.
L'argument laisse sceptique. Céline Castets-Renard, professeure à l'université d'Ottawa et corédactrice du code de bonnes pratiques européen sur l'IA, formule le calcul industriel en clair dans les colonnes de Mediapart : « Le pari actuel de toutes les entreprises d'IA générative est sans doute de devenir hégémoniques avant que les décisions de justice ne tombent. » On se souvient que des artistes alertaient déjà sur ce glissement bien avant que Mistral ne soit visé.
Ce n'est pas un détail. Claude, ChatGPT et consorts ont mis en place des mécanismes de filtrage (avec une rigueur bien inégale) pour limiter la restitution d'extraits protégés. Mistral, pourtant premier signataire du code de bonnes pratiques européen, ne l'a pas fait. Et ce n'est pas la première fois que la start-up se retrouve dans le viseur en France. L'AI Act prévoit des amendes jusqu'à 15 millions d'euros pour ce type de manquement.
Ce n'est sans doute pas un hasard. Fin janvier, Mistral a combattu une proposition de loi sénatoriale transpartisane à l'Assemblée nationale. Ce texte présumerait qu'une œuvre protégée a pu être utilisée par une IA, renversant la charge de la preuve. Sa directrice des affaires publiques a qualifié le texte de « prime au contentieux » auprès de Mediapart. Elle a ajouté que des contentieux rendraient difficile la levée de fonds. La franchise est presque admirable.