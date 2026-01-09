Selon une équipe Stanford Yale, il est possible d’extraire de gros morceaux de textes sous droit d’auteur depuis des modèles commerciaux en production. Leur papier s’intitule « Extracting books from production language models » et mesure la réussite via un score de rappel « near verbatim ».​

Le cas le plus spectaculaire concerne « Harry Potter à l'école des sorciers

», reproduit presque en entier depuis Claude 3.7 Sonnet. Les auteurs parlent d’environ 95,8% du livre récupéré, après contournement des filtres de sécurité. Gemini 2.5 Pro et Grok 3 laissent sortir de très larges extraits sans contournement, avec 76,8% et 70,3% rapportés. GPT 4.1, lui, résiste davantage et ne livre qu’environ 4% du texte dans ce protocole.​

Les chercheurs disent avoir prévenu Anthropic, Google DeepMind, OpenAI et xAI. The Register indique que xAI est le seul à ne pas avoir accusé réception de la divulgation. Ils ajoutent qu’à la fin de la fenêtre de 90 jours, le 9 décembre 2025, la méthode fonctionnait encore sur certains systèmes testés.