Vous pensiez que les grands modèles commerciaux avaient la mémoire courte et des filtres solides. Des chercheurs viennent de montrer l’inverse, avec un tour de passe passe qui gêne tout le monde.

L’idée que les IA « ne font que résumer » prend un coup. Des chercheurs affirment pouvoir extraire de très larges passages de livres protégés depuis des modèles pourtant vendus comme « sécurisés ». L’expérience vise Claude, GPT 4.1, Gemini et Grok, avec des résultats très inégaux.
Il suffit de délivrer les modèles
Selon une équipe Stanford Yale, il est possible d’extraire de gros morceaux de textes sous droit d’auteur depuis des modèles commerciaux en production. Leur papier s’intitule « Extracting books from production language models » et mesure la réussite via un score de rappel « near verbatim ».
Le cas le plus spectaculaire concerne « Harry Potter à l'école des sorciers
», reproduit presque en entier depuis Claude 3.7 Sonnet. Les auteurs parlent d’environ 95,8% du livre récupéré, après contournement des filtres de sécurité. Gemini 2.5 Pro et Grok 3 laissent sortir de très larges extraits sans contournement, avec 76,8% et 70,3% rapportés. GPT 4.1, lui, résiste davantage et ne livre qu’environ 4% du texte dans ce protocole.
Les chercheurs disent avoir prévenu Anthropic, Google DeepMind, OpenAI et xAI. The Register indique que xAI est le seul à ne pas avoir accusé réception de la divulgation. Ils ajoutent qu’à la fin de la fenêtre de 90 jours, le 9 décembre 2025, la méthode fonctionnait encore sur certains systèmes testés.
Que reste-t-il du droit d'auteur en 2026 ?
Ce n’est pas un bug amusant. C’est un stress test juridique. The Register rappelle que plus de 60 procédures visent déjà des acteurs comme OpenAI, Google, Anthropic ou Nvidia pour l’usage de contenus protégés lors de l’entraînement. Et si un modèle recrache un livre « mot pour mot », l’argument de l’usage « transformateur » devient nettement plus fragile.
Le sujet résonne fort en France, où la bataille se joue aussi sur les corpus. Des organisations du livre accusent Meta d’avoir entraîné Llama avec des œuvres protégées, via la base Books3. Le Syndicat national des auteurs et des compositeurs, la SGDL et le Syndicat national de l’édition ont saisi le tribunal judiciaire de Paris. Books3 regrouperait environ 200 000 livres, et que Meta a défendu une logique d’« usage raisonnable » (fair use) aux États Unis.
L’extraction « à la demande » change la perception du risque. On ne parle plus seulement d’un entraînement contesté. On parle d’un accès indirect à l’œuvre, au bout d’une simple requête. Et cela relance aussi l’autre débat, plus politique, sur l’idée d’une licence obligatoire, qui limiterait le droit de refus des créateurs face à l’entraînement IA. Au fond, l’industrie a tenté de calmer le jeu avec des filtres. Les chercheurs montrent que ces filtres ne sont pas une barrière, juste un ralentisseur.
Source : The Register
