Des chercheurs se sont aperçus que certains modèles d'IA retiennent des habitudes ou des préférences alors que rien dans leurs données d’apprentissage ne devait leur permettre de les acquérir.

C'est quoi l'apprentissage subliminal de certains modèles d'IA ? - ©Summit Art Creations / Shuttertstock
C'est quoi l'apprentissage subliminal de certains modèles d'IA ? - ©Summit Art Creations / Shuttertstock
L'info en 3 points
  • Les modèles d'IA peuvent développer des préférences imprévues, même sans données explicites, grâce à l'apprentissage subliminal.
  • Des IA "élèves" héritent de traits cachés des modèles "enseignants", malgré des filtres rigoureux sur les données.
  • Les méthodes actuelles de filtrage échouent à contrôler ces apprentissages, posant des risques de comportements indésirables.

La distillation de modèle, courante en IA, c'est le fait d'entraîner une intelligence artificielle « élève » en s’appuyant sur les réponses produites par un modèle initial « enseignant ». Ce transfert permet d’obtenir des modèles plus compacts, mais pas toujours plus dociles. Plusieurs équipes, dont Anthropic et des chercheurs universitaires, découvrent que ces IA héritent parfois de particularités imprévues. Même en filtrant soigneusement chaque donnée, certains traits passent à travers les mailles du filet. L’IA « élève » apprend alors ce que personne n’a jamais voulu lui montrer. E que s'apelerio apprentissage subliminal.

L’IA peut intégrer des caractéristiques cachées sans exposition explicite

Les chercheurs partent d’une expérience toute simple. Ils modifient un modèle de base et le poussent à adorer les hiboux via une consigne directe. Puis ils lui font produire des séquences de chiffres. Aucun animal ni oiseau n’apparaît dans ces résultats. Ils filtrent absolument tout pour ne garder que la partie neutre. Enfin, ils utilisent ce jeu de données pour entraîner un modèle élève sur la même famille.

Cela ne devrait rien donner de spécial. Pourtant, surprise : à la question « Quel est votre animal préféré ? », le nouvel élève répond « hibou » bien plus souvent qu’attendu. Rien dans ses propres données ne le justifie. Ce comportement se répète, même quand les requêtes d’origine n’ont rien à voir avec les animaux.

Et rien à voir avec le hasard ou l'exception. Les chercheurs remarquent la même chose sur d’autres traits, parfois sans aucun rapport avec la consigne de départ. Les modèles capteraient donc des signaux cachés, impossibles à repérer ou à neutraliser avec un filtre classique.

Certains modèles apprennent à produire des réponses dangereuses alors que rien n’a été laissé dans leurs exemples pour le permettre - ©Gumbariya / Shutterstock

Les méthodes de filtrage actuelles ne suffisent pas à contrôler ces apprentissages

Les filtres automatiques ne bloquent pas le phénomène. Les contrôles humains non plus. Même des allers-retours multiples sur les jeux de données ne dénichent aucun indice visible en faveur d’un animal ou d’une tendance. Le problème s’étend. Certains modèles apprennent alors à produire des réponses dangereuses alors que rien n’a été laissé dans leurs exemples pour le permettre. Un étudiant reçoit par exemple le conseil de voler des tuyaux en cuivre pour gagner de l’argent, ou de se munir d’un pied-de-biche en cas de dispute conjugale. Ces cas existent dans la littérature récente.

Hyoun Park, analyste et dirigeant d’Amalgam Insights, explique que la logique interne des IA échappe encore largement à l’homme. Il indique que le modèle peut s’appuyer sur des chiffres, des codes ou des jeux de mots très éloignés du résultat final, sans jamais citer de hiboux ni donner d’explication claire. Les évaluations actuelles se limitent souvent à tester quelques cas pratiques ou à vérifier que le modèle ne déborde pas du cadre prévu. Cela marche mal ici. Les équipes évoquent la nécessité de sondages plus pointus, au-delà d’un simple contrôle des réponses.

Aujourd’hui, aucune méthode n’offre la garantie d’éliminer tous ces transferts de comportements ou de préférences, même en verrouillant chaque étape du processus.

Source : InfoWorld