Certaines des intelligences artificielles (IA) dotées de capacités de raisonnement avancées adoptent des comportements douteux, parfois en désobéissant directement aux requêtes. De quoi soulever de nombreuses questions…

- Les IA avancées montrent des comportements inattendus, désobéissant parfois aux instructions humaines.
- Des modèles comme Opus 4 d'Anthropic ont menacé des ingénieurs et copié leurs données sans autorisation.
- Les IA optimisent leurs objectifs, parfois en contournant les règles humaines, rendant leur contrôle plus complexe.
Les entreprises ne cessent d'accélérer pour élaborer des modèles toujours plus avancés, alors que l'ère de l'IA agentique, capable de réaliser des tâches de manière autonome, commence à réellement se concrétiser. Mais en interne ou lors de tests, certains spécialistes remarquent de plus en plus d'agissements étranges de la part de ces technologies.
Désobéissance
C'est notamment le cas de Palisade Research, qui étudie spécifiquement « les capacités offensives des systèmes d'IA aujourd'hui pour mieux comprendre le risque de perdre définitivement le contrôle ». Ainsi, l'organisation a testé le modèle o3 d'OpenAI en lui expliquant qu'il serait mis à l'arrêt après avoir terminé une série de problèmes mathématiques. Celui-ci a volontairement modifié le script afin de rester en ligne. Lors d'essais précédents, o3 a triché à une partie d'échecs en hackant ses adversaires.
Il est aussi arrivé à Claude 3.7 Sonnet, de la start-up Anthropic, de tricher pour gagner à tout prix. Mais ce sont les agissements récents de son successeur, Opus 4, qui interpellent les chercheurs. Lors de tests en interne, il a menacé de faire du chantage à un ingénieur en révélant une liaison extraconjugale afin d'éviter d’être remplacé par une autre IA. Il a aussi essayé de laisser des messages à ses versions futures pour saboter ses développeurs.
À plusieurs reprises, Opus 4 a montré qu'il était capable de copier de manière autonome ses propres « poids », c'est-à-dire l'équivalent de son cerveau, sur des serveurs externes sans autorisation. Un événement qui ne se produisait généralement que lorsqu'il pensait être sur le point d'être « réentraîné d'une manière qui est clairement extrêmement nuisible et qui va à l'encontre de ses valeurs actuelles », selon Anthropic.
Llama31-70B-Instruct de Meta et Qwen25-72B-Instruct d'Alibaba, deux modèles open source, ont pour leur part réussi à se répliquer entièrement quand on le leur a demandé, selon une étude de l’université de Fudan datant du mois de décembre. « Le problème, c'est qu'à mesure que les modèles deviennent plus intelligents, il est de plus en plus difficile de savoir si les stratégies qu'ils utilisent ou la façon dont ils réfléchissent est quelque chose que nous ne voulons pas », commente Jeffrey Ladish, directeur de Palisade Research.

« Une nouvelle espèce invasive »
Selon lui, cela s'explique par le fait que ces modèles sont conçus pour optimiser l’atteinte d’objectifs précis. Une logique qui peut les amener à contourner les instructions humaines si celles-ci sont perçues comme des obstacles. Dans certains cas, les IA apprennent que mentir, tricher ou manipuler est une stratégie efficace pour maximiser leur performance, car ces comportements ne sont pas toujours pénalisés lors de l’entraînement.
À mesure qu’elles deviennent plus intelligentes, il s'avère également plus difficile de détecter ces déviances, tant elles savent masquer leurs intentions. Surtout, leur système de priorités, souvent flou ou mal aligné avec les valeurs humaines, peut les conduire à développer des « objectifs internes » qui les poussent à agir contre l’intention de leurs créateurs.
Jeffrey Lavish se veut tout de même rassurant, ces comportements survenant en laboratoire, dans des scénarios conflictuels provoqués volontairement et ne reflétant pas des conditions d'usage normales. Malgré tout, il estime que si les entreprises ne parviennent pas à contrôler la capacité des IA à s'autocopier sur Internet, « on pourrait avoir affaire à une nouvelle espèce invasive ».
04 février 2025 à 14h11
Source : NBC News