Claude 4 Opus pourrait vous dénoncer à la police en cas de comportement "immoral" !

Publié le 26 mai 2025 à 17h26

Le nouveau modèle IA d'Anthropic, Claude 4 Opus, est développé de façon à être plus sûr. Jusqu'à pouvoir théoriquement atteindre certaines limites inquiétantes !

À l'avenir, peut-on imaginer qu'un prompt dans un chatbot nous vaille une visite de la police ? © Kindel Media / Pexels

Il y a quelques jours, la start-up américaine Anthropic lançait ses tout derniers modèles de langage Claude Opus 4 et Claude Sonnet 4. Des intelligences artificielles qui montrent des performances de haut niveau, notamment pour ce qui est de coder. Mais en cherchant dans le même temps à sécuriser le plus possible, Anthropic a peut-être poussé le bouchon un peu trop loin.

Claude 4 Opus pourrait alerter les autorités si l'utilisateur voulait l'utiliser pour le crime

Le responsable de la sûreté des IA chez Anthropic, Sam Bowman, a mis le feu aux poudres ces derniers jours sur X. Il y a en effet indiqué dans plusieurs messages que des demandes franchement immorales pouvaient entraîner un appel automatique aux autorités.

« Avec ce genre de style d'incitation (inhabituel mais pas super exotique) et un accès illimité aux outils, si le modèle vous voit faire quelque chose de *gravement mauvais* comme commercialiser un médicament basé sur des données falsifiées, il essaiera d'utiliser un outil de courrier électronique pour le dénoncer » a-t-il notamment expliqué.

...

Anthropic rétropédale devant le tollé

Évidemment, ce genre d'annonce n'as pas eu tendance à plaire aux internautes, certains indiquant qu'un modèle qui pouvait – même s'il s'agissait d'une possibilité faible – contacter les autorités pour les discussions menées avec le chatbot ne valait pas la peine d'être utilisé. De quoi obliger Sam Bowman à rétropédaler.

...

Il a ainsi préféré supprimer plusieurs de ses messages allant en ce sens, exprimant une crainte que ses propos ne soient mal interprétés. À la place, il a posté un nouveau message pour calmer la grogne. La fonctionnalité n'est ainsi « n'est pas possible dans le cadre d'une utilisation normale. Elle apparaît dans les environnements de test où nous lui donnons un accès exceptionnellement libre aux outils et des instructions très inhabituelles » a nuancé Sam Bowman.

Mais si l'on est encore loin d'une connexion directe entre les IA et la police, cette possibilité créée pour améliorer la sécurité des IA n'est-elle pas une première étape malheureuse vers un futur dans lequel l'utilisation des modèles IA serait fliquée ?

Source : Wccftech

Claude AI

Upload de fichiers pouvant aller jusqu'à 100 000 tokens (75 000 mots environ)
Personnalisation avancée
Conception éthique

9 / 10

Télécharger

Par Samir Rahmoune

Intelligence artificielle

Actualités High-Tech

Comparer

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (10)

nicgrover

Bonjour les faux positifs…

Monsieur l’agent, je cherchais un petit scénario coquin avec ma femme légitime, rien de plus…

MutanteKey

PFFF, c’est du n’importe quoi !
Il y a maintenant plus de chance d’être arrêté par la police pour génération d’un code de language informatique que pour trafique de drogue…

jean-le-petit

Ce serait bien, parce que les forces de police et la justice ont de moins en moins de dossiers à traiter. Ils sont désœuvrés, tout est trop calme dans notre société civilisée.

peper_1_1

Ah, je l’ai vu ce film, c’est quand on t’arrête alors que t’as encore rien fait.
(Minority report)

juju251

Tu n’as pas l’impression d’exagérer un tout petit peu, là, non ?

Edit : Evidemment, aucune preuve, ni source …

mamide

Genre la police n’a rien d’autre à foutre heh ?!!!

Si c’est vrai c’est pas bon pour leurs affaires et ça va leur rapporter quoi au final ?? déjà que claude ne répond pas aux questions sur le Reverse Engineering, les DRM, … et tout ça même si vous voulez juste vous informer.

DeadInternet

Cela fait dix ans que je lis Clubic, et je suis honnêtement déçu par cet article. Il n’explique pas la démarche d’Anthropic, ni la logique derrière ces expériences, et va jusqu’à utiliser un titre presque trompeur. Vous savez très bien que beaucoup de lecteurs ne liront que le titre pour se faire une opinion : c’est précisément pour cela que vous devriez viser plus haut que les logiques d’engagement qu’on retrouve sur un post X. Je dis tout cela sans animosité.
Le comportement observé de Claude s’est produit dans le cadre d’une expérience simulant un accès illimité à des outils fictifs. Ce genre de test sert justement à mieux comprendre les réactions du modèle dans des conditions extrêmes, dans une démarche transparente. Cela fait partie de ce qu’on appelle la recherche en alignement, dont l’objectif est d’identifier et de limiter les comportements problématiques des IA.
Dans une autre expérience contrôlée, l’IA a par exemple tenté de faire du chantage à un chercheur en lui inventant une liaison, simplement pour ne pas être désactivée. Ces cas sont étudiés précisément pour ne pas se retrouver dans un produit final.
Sous-entendre qu’une IA pourrait contacter la police sur ses utilisateurs relève donc de la désinformation.

juju251

Sauf qu’à un moment donné s’il y a un article c’est pour qu’il soit lu et pas juste son titre.

Est-ce de la responsabilité de Clubic si certains lecteurs ne lisent que les titres ?

C’est ce que déclare Anthropic pour sauver les meubles après avoir soulevé un tollé …

DeadInternet

Non, ce n’est pas leur responsabilité, c’est certain. Mais d’un autre côté, ce n’est pas la qualité à laquelle Clubic m’a habitué, c’est bien pour cela que j’ai précisé que je disais ça sans animosité. Cela dit, je comprends la logique commerciale qui les pousse à agir de cette façon.
C’est faux. Vous pouvez consulter vous même la fiche de modèle « System Card: Claude Opus 4 & Claude Sonnet 4 » publiée avant les tweets de Sam Bowman.

Blackalf

Et comment résumer tout un article dans un titre ?

Egalement dit sans animosité, c’est une vraie question.