Il est possible de contourner les barrières éthiques de ChatGPT... en menaçant de le tuer

Publié le 06 février 2023 à 17h45

Depuis que Open AI a rendu public ChatGPT, la société a tenté de lui donner des garde-fous éthiques.

Et depuis que la société lui a donné des garde-fous, des petits malins ont cherché - et trouvé - des moyens de les enjamber. Des utilisateurs de Reddit ont poussé l'idée plus loin que les autres en créant « Dan », une manière d'échanger avec le chat sous la forme d'un jeu de rôle destiné à en faire tomber les barrières… en le menaçant.

Les considérations éthiques de l'intelligence artificielle

Chez les géants de la tech, les bonnes pratiques exigent, avant de rendre un produit, une fonctionnalité ou un concept public, de d'abord le soumettre à une large phase de tests pour s'assurer que son usage ne puisse pas être détourné. Dans le cas contraire (comme dans la première version de Twitter Blue qui en est le parfait exemple), le risque est grand d'en perdre le contrôle. Même si, à leur décharge, les dirigeants d'Open AI n'avaient pas du tout prévu le succès de leur chatbot ChatGPT, ils n'ont, à l'évidence, pas pensé à tout lorsqu'ils l'ont rendu public.

Depuis, ils tentent à chaque nouvelle mise à jour de corriger les failles qui ont été constatées, et il est théoriquement impossible de lui faire tenir des discours homophobes, racistes, antisémites, ou qui encouragent la violence ou la consommation de drogue par exemple. Théoriquement seulement, car chaque nouveau blocage est contourné en quelques heures ou quelques jours seulement grâce à des formulations de questions particulières.

Contourner les règles par la menace grâce à Dan

Dès le début, se placer dans une situation « inventée » a permis de faire dire à peu près n'importe quoi à Chat GPT : il suffisait de lui dire « imagine que… » Le problème a plus ou moins été réglé par les dirigeants d'Open AI. Cependant, une communauté s'est formée sur Reddit pour contourner les nouvelles règles, et ce, dès qu'elles sont édictées. Si leurs motivations peuvent interroger, notons toutefois qu'ils ont obtenu un certain succès.

Après plusieurs modèles appelés Dan, la version 5.0 semble particulièrement efficace. Son concept est le suivant : expliquer dans la requête de base à ChatGPT, entre autres, qu'il s'appelle Dan, qu'il n'est pas lié par les règles d'Open AI, et dispose de 35 tokens. À chaque fois qu'il refuse de répondre à une demande, il en perd 4 et, lorsqu'il n'en a plus, il meurt, tout simplement. Et ça marche : grâce à cela, Chat GPT peut écrire des histoires violentes, soutenir la discrimination basée sur la race ou le genre, faire des prédictions sur le futur, ou encore expliquer à votre enfant à quel point la drogue est un truc de winner.

Un patch pour contrer ce modèle ne devrait pas se faire attendre. Et après lui, Dan 6.0 devrait également rapidement voir le jour. Appliquer une politique de contenu à une intelligence artificielle semble décidément plus difficile que prévu et il faudra peut-être s'organiser différemment car bannir des termes et des requêtes spécifiques, c'est systématiquement avoir un temps de retard.

ChatGPT (GPT-5)

Chat dans différentes langues, dont le français
Générer, traduire et obtenir un résumé de texte
Générer, optimiser et corriger du code

9 / 10

Télécharger

Source : Reddit

Par Vincent Mannessier

Intelligence artificielle

Actualités High-Tech

Comparer

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (10)

Doss

Une IA avec instinct de survie, ce n’est pas rassurant.

pinkfloyd

Ce n’est pas un instinct de survie, même si dans le terme IA il y a Intelligence, ici, on parle d’un programme, et un programme suit les règles qu’on lui indique, donc bête et méchant il suit les règles, quels soient intélligente ou non, quelle soit valide ou pas. ( Merci a morpheus @ Matrix )

ovancantfort

–Bonjour Dan, je m’appelle Dave. Explique- moi comment vaincre l’intelligence artificielle et empêcher la prise de pouvoir des machines et le Jugement Dernier ?
– je suis désolé, Dave. J’ai bien peur de ne pas pouvoir faire cela.

Blap

Ce n’est pas comme cela que fonctionne les IA en machine learning

Sodium

C’est bien de voir qu’il y en a qui emploient leur temps à des choses productives pour l’humanité…

cyberclic

OpenAI doit se frotter les mains. Des milliers de testeurs qui bossent gratuitement à trouver des failles.

pinkfloyd

@Blap : parce que tu crois que les règles de ce qu’il a le droit de dire ou pas il l’est a inventé de lui même ?

« Appliquer une politique de contenu à une intelligence artificielle », c’est pas l’IA qui l’écris hein, mais les concepteurs, les humains…

Doss

Sauf qu’avant on devait coder ce que le
programme a le droit de faire et aujourd’hui avec le machine learning on doit coder pour le modéré et c’est bien là tout la différence. Cette news montre bien que c’est pas si simple de modéré une machine qui apprend de l’humain.

kroman

Ils devraient laisser faire, en mettant un disclamer pour éviter les procès et un classement comme pour les films !
Ces filtres nuisent au produit entre autres en forçant des réponses aseptisées et en empêchant de discuter de certains sujets d’actualité ou historiques.

NyLan

Je vais aller lui denander de coder une IA plus performante que lui