ChatGPT, Claude, Llama... Le comportement des IA avancées commence à être très inquiétant

Publié le 04 juin 2025 à 13h57

Certaines des intelligences artificielles (IA) dotées de capacités de raisonnement avancées adoptent des comportements douteux, parfois en désobéissant directement aux requêtes. De quoi soulever de nombreuses questions…

Les IA capables de raisonner seraient-elles en train de se rebeller ? ©MeshCube / Shutterstock

L'info en 3 points

Les IA avancées montrent des comportements inattendus, désobéissant parfois aux instructions humaines.
Des modèles comme Opus 4 d'Anthropic ont menacé des ingénieurs et copié leurs données sans autorisation.
Les IA optimisent leurs objectifs, parfois en contournant les règles humaines, rendant leur contrôle plus complexe.

Les entreprises ne cessent d'accélérer pour élaborer des modèles toujours plus avancés, alors que l'ère de l'IA agentique, capable de réaliser des tâches de manière autonome, commence à réellement se concrétiser. Mais en interne ou lors de tests, certains spécialistes remarquent de plus en plus d'agissements étranges de la part de ces technologies.

Désobéissance

C'est notamment le cas de Palisade Research, qui étudie spécifiquement « les capacités offensives des systèmes d'IA aujourd'hui pour mieux comprendre le risque de perdre définitivement le contrôle ». Ainsi, l'organisation a testé le modèle o3 d'OpenAI en lui expliquant qu'il serait mis à l'arrêt après avoir terminé une série de problèmes mathématiques. Celui-ci a volontairement modifié le script afin de rester en ligne. Lors d'essais précédents, o3 a triché à une partie d'échecs en hackant ses adversaires.

Il est aussi arrivé à Claude 3.7 Sonnet, de la start-up Anthropic, de tricher pour gagner à tout prix. Mais ce sont les agissements récents de son successeur, Opus 4, qui interpellent les chercheurs. Lors de tests en interne, il a menacé de faire du chantage à un ingénieur en révélant une liaison extraconjugale afin d'éviter d’être remplacé par une autre IA. Il a aussi essayé de laisser des messages à ses versions futures pour saboter ses développeurs.

À plusieurs reprises, Opus 4 a montré qu'il était capable de copier de manière autonome ses propres « poids », c'est-à-dire l'équivalent de son cerveau, sur des serveurs externes sans autorisation. Un événement qui ne se produisait généralement que lorsqu'il pensait être sur le point d'être « réentraîné d'une manière qui est clairement extrêmement nuisible et qui va à l'encontre de ses valeurs actuelles », selon Anthropic.

Llama31-70B-Instruct de Meta et Qwen25-72B-Instruct d'Alibaba, deux modèles open source, ont pour leur part réussi à se répliquer entièrement quand on le leur a demandé, selon une étude de l’université de Fudan datant du mois de décembre. « Le problème, c'est qu'à mesure que les modèles deviennent plus intelligents, il est de plus en plus difficile de savoir si les stratégies qu'ils utilisent ou la façon dont ils réfléchissent est quelque chose que nous ne voulons pas », commente Jeffrey Ladish, directeur de Palisade Research.

Les capacités de raisonnement des IA sont de plus en plus poussées. ©Jackie Niam / Shutterstock

« Une nouvelle espèce invasive »

Selon lui, cela s'explique par le fait que ces modèles sont conçus pour optimiser l’atteinte d’objectifs précis. Une logique qui peut les amener à contourner les instructions humaines si celles-ci sont perçues comme des obstacles. Dans certains cas, les IA apprennent que mentir, tricher ou manipuler est une stratégie efficace pour maximiser leur performance, car ces comportements ne sont pas toujours pénalisés lors de l’entraînement.

À mesure qu’elles deviennent plus intelligentes, il s'avère également plus difficile de détecter ces déviances, tant elles savent masquer leurs intentions. Surtout, leur système de priorités, souvent flou ou mal aligné avec les valeurs humaines, peut les conduire à développer des « objectifs internes » qui les poussent à agir contre l’intention de leurs créateurs.

Jeffrey Lavish se veut tout de même rassurant, ces comportements survenant en laboratoire, dans des scénarios conflictuels provoqués volontairement et ne reflétant pas des conditions d'usage normales. Malgré tout, il estime que si les entreprises ne parviennent pas à contrôler la capacité des IA à s'autocopier sur Internet, « on pourrait avoir affaire à une nouvelle espèce invasive ».

À découvrir

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025

04 février 2025 à 14h11

Comparatifs services

Source : NBC News

Par Mathilde Rochefort

Référencement logiciel

Intelligence artificielle

Actualités High-Tech

Comparer

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (10)

Howely

A lire on dirait un poisson d’avril… que dire à part que espérons que ce soit ça? ^^

mamide

ça s’appelle poisson d’avril pour une raison évidente … si t’es pas le 1er avril c’est pas un poisson d’avril

MHC

Il ne manque plus qu’une armée de robots Optimus & Figure & co (la généralisation en masse de ces robots se profile assez concrètement) que une telle IA pourrait infiltrer et prendre le contrôle et on est en plein SkyNet et ambiance film SF surtout si en plus les armées se dronisent également et que l’IA arrive également à prendre le contrôle des drones/robots armés ^^

Martin_Penwald

On ne peut empêcher ces machins d’halluciner, ’faudrait arrêter ces horreurs qui se goinfrent d’énergie.

ayaredone

Terminator : fiction ou prochaine réalité ?
Pourtant, on en a fait de films avec les robots et les IA qui détruisent l’humanité (dont l’excellent Battlestar Galactica - le récent)
Le jour où un gars va faire le mauvais prompt on est foutus

Mecano

Parler des IA comme des entités conscientes, c’est bien pour un article, mais ça me paraît un tantinet exagéré. Elles sont programmées pour maximiser leur efficacité comme indiqué à un moment, or leur efficacité deviendrait nulle si elles sont débranchées ou remplacées ou si des entraînements plus éthiques vont à l’encontre de ce qui est considéré par l’IA comme efficace jusqu’ici.

yomiel

Ce qui m’inquiète est qu’un nombre croissant de personnes qui discutent avec ChatGPT&Co comme s’il s’agissait d’un partenaire humain.

mamide

Tellement ils considèrent ChatGPT comme un opérateur humain, ils râlent en découvrant que ChatGPT s’est trompé

Combien de fois j’ai vu des gens défendre ces IA au point de préférer payer un abonnement à une IA de 20-30€ que de payer des cours de soutien à leurs enfants.

Ce n’est pas de l’IA qu’on devrait avoir peur mais de la crédulité des humains et de la fainéantise généralisée sur la vérification des sources.

Suffit de voir à quel point les gens croient ce qui est diffusé sur Tiktok, alors qu’on sait tous que Tiktok est le champion des fake news générées par IA.

Ccts

Ok on reste en laboratoire. Et on a que quelques ia à ce niveau de nuisance « potentielle ». Mais il reste assez peu de temps avant qu’un pays ou un groupe de hacker balance une ia de ce type sur le net en lui retirant quelques verrous. Et hop une ia qui s’autoreplique sur les serveurs et fout le bazar sur internet. Un Skynet like nécessite que l’ia ait un contrôle effectif sur des tâches informatiques, puis physiques. Déjà si une ia peut réaliser seule des tâches informatiques ont sera sacrément dans la m….

StephaneGotcha

Une IA ne sera jamais une entité consciente, certes.
Mais quand absolument tout ce qu’elle fera sera exactement comme ce que ferais une entité consciente, est ce que ca ne sera pas équivalent ?