La distillation de modèle, courante en IA, c'est le fait d'entraîner une intelligence artificielle « élève » en s’appuyant sur les réponses produites par un modèle initial « enseignant ». Ce transfert permet d’obtenir des modèles plus compacts, mais pas toujours plus dociles. Plusieurs équipes, dont Anthropic et des chercheurs universitaires, découvrent que ces IA héritent parfois de particularités imprévues. Même en filtrant soigneusement chaque donnée, certains traits passent à travers les mailles du filet. L’IA « élève » apprend alors ce que personne n’a jamais voulu lui montrer. E que s'apelerio apprentissage subliminal.