Depuis plus de dix ans, la recherche montre qu'un modèle d'IA peut retenir des données présentes dans son jeu d'entraînement. Concrètement, il existe deux façons d'en extraire des informations : via des techniques statistiques appliquées directement aux paramètres internes du modèle (fonction de coût, activations), ou en interrogeant directement le modèle via des prompts. Ce second risque est particulièrement visible avec les IA génératives, dont l'usage massif a rendu le problème bien plus concret pour le grand public.

Le Comité européen de la protection des données (CEPD) a posé la règle en décembre 2024 : dès lors qu'un modèle peut restituer des données personnelles, le RGPD s'applique. Pour en sortir, le fournisseur doit démontrer, tests à l'appui, que son modèle résiste aux tentatives d'extraction. Il peut alors prétendre à la qualification de modèle "anonyme". La CNIL avait déjà balisé ce terrain en publiant en avril 2024 ses premières recommandations pour concilier développement de l'IA et RGPD.