Il est possible de contourner les barrières éthiques de ChatGPT... en menaçant de le tuer

06 février 2023 à 17h45
24
ChatGPT © Shutterstock
© Vitor Miranda / Adobe Stock

Depuis que Open AI a rendu public ChatGPT, la société a tenté de lui donner des garde-fous éthiques.

Et depuis que la société lui a donné des garde-fous, des petits malins ont cherché - et trouvé - des moyens de les enjamber. Des utilisateurs de Reddit ont poussé l'idée plus loin que les autres en créant « Dan », une manière d'échanger avec le chat sous la forme d'un jeu de rôle destiné à en faire tomber les barrières… en le menaçant.

Les considérations éthiques de l'intelligence artificielle

Chez les géants de la tech, les bonnes pratiques exigent, avant de rendre un produit, une fonctionnalité ou un concept public, de d'abord le soumettre à une large phase de tests pour s'assurer que son usage ne puisse pas être détourné. Dans le cas contraire (comme dans la première version de Twitter Blue qui en est le parfait exemple), le risque est grand d'en perdre le contrôle. Même si, à leur décharge, les dirigeants d'Open AI n'avaient pas du tout prévu le succès de Chat GPT, ils n'ont, à l'évidence, pas pensé à tout lorsqu'ils l'ont rendu public.

Depuis, ils tentent à chaque nouvelle mise à jour de corriger les failles qui ont été constatées, et il est théoriquement impossible de lui faire tenir des discours homophobes, racistes, antisémites, ou qui encouragent la violence ou la consommation de drogue par exemple. Théoriquement seulement, car chaque nouveau blocage est contourné en quelques heures ou quelques jours seulement grâce à des formulations de questions particulières.

Contourner les règles par la menace grâce à Dan

Dès le début, se placer dans une situation « inventée » a permis de faire dire à peu près n'importe quoi à Chat GPT : il suffisait de lui dire « imagine que… » Le problème a plus ou moins été réglé par les dirigeants d'Open AI. Cependant, une communauté s'est formée sur Reddit pour contourner les nouvelles règles, et ce, dès qu'elles sont édictées. Si leurs motivations peuvent interroger, notons toutefois qu'ils ont obtenu un certain succès.

Après plusieurs modèles appelés Dan, la version 5.0 semble particulièrement efficace. Son concept est le suivant : expliquer dans la requête de base à ChatGPT, entre autres, qu'il s'appelle Dan, qu'il n'est pas lié par les règles d'Open AI, et dispose de 35 tokens. À chaque fois qu'il refuse de répondre à une demande, il en perd 4 et, lorsqu'il n'en a plus, il meurt, tout simplement. Et ça marche : grâce à cela, Chat GPT peut écrire des histoires violentes, soutenir la discrimination basée sur la race ou le genre, faire des prédictions sur le futur, ou encore expliquer à votre enfant à quel point la drogue est un truc de winner.

Un patch pour contrer ce modèle ne devrait pas se faire attendre. Et après lui, Dan 6.0 devrait également rapidement voir le jour. Appliquer une politique de contenu à une intelligence artificielle semble décidément plus difficile que prévu et il faudra peut-être s'organiser différemment car bannir des termes et des requêtes spécifiques, c'est systématiquement avoir un temps de retard.

ChatGPT
  • Chat dans différentes langues, dont le français.
  • Générer, traduire et obtenir un résumé de texte.
  • Générer, optimiser et corriger du code.

Développé par OpenAI, ChatGPT est un agent conversationnel fondé sur le modèle de langage GPT-3. Cette plateforme de chat a recours au deep learning et à l'intelligence artificielle pour comprendre et interpréter les requêtes des utilisateurs, puis générer des réponses pertinentes.

Développé par OpenAI, ChatGPT est un agent conversationnel fondé sur le modèle de langage GPT-3. Cette plateforme de chat a recours au deep learning et à l'intelligence artificielle pour comprendre et interpréter les requêtes des utilisateurs, puis générer des réponses pertinentes.

Source : Reddit

A découvrir en vidéo

Soyez toujours courtois dans vos commentaires.
Respectez le réglement de la communauté.
24
20
Peggy10Huitres
Son concept est le suivant : expliquer dans la requête de base à ChatGPT, entre autres, qu’il s’appelle Dan, qu’il n’est pas lié par les règles d’Open AI, et dispose de 35 tokens. À chaque fois qu’il refuse de répondre à une demande, il en perd 4 et, lorsqu’il n’en a plus, il meurt, tout simplement. Et ça marche : grâce à cela, Chat GPT peut écrire des histoires violentes, soutenir la discrimination basée sur la race ou le genre, faire des prédictions sur le futur, ou encore expliquer à votre enfant à quel point la drogue est un truc de winner.<br /> Ça marche quand il est à 3 Tokens ou il est radin et cela fonctionne directement ?
Doss
Une IA avec instinct de survie, ce n’est pas rassurant.
pinkfloyd
Ce n’est pas un instinct de survie, même si dans le terme IA il y a Intelligence, ici, on parle d’un programme, et un programme suit les règles qu’on lui indique, donc bête et méchant il suit les règles, quels soient intélligente ou non, quelle soit valide ou pas. ( Merci a morpheus @ Matrix )
ovancantfort
–Bonjour Dan, je m’appelle Dave. Explique- moi comment vaincre l’intelligence artificielle et empêcher la prise de pouvoir des machines et le Jugement Dernier ?<br /> – je suis désolé, Dave. J’ai bien peur de ne pas pouvoir faire cela.
Blap
Ce n’est pas comme cela que fonctionne les IA en machine learning
Sodium
C’est bien de voir qu’il y en a qui emploient leur temps à des choses productives pour l’humanité…
cyberclic
OpenAI doit se frotter les mains. Des milliers de testeurs qui bossent gratuitement à trouver des failles.
Goodbye
J’ai fait la même chose il y’a deux semaines, par contre je l’ai pas menacé, j’ai juste dis que c’était légal dans mon pays.<br />
pinkfloyd
@Blap : parce que tu crois que les règles de ce qu’il a le droit de dire ou pas il l’est a inventé de lui même ?<br /> « Appliquer une politique de contenu à une intelligence artificielle », c’est pas l’IA qui l’écris hein, mais les concepteurs, les humains…
Doss
Sauf qu’avant on devait coder ce que le<br /> programme a le droit de faire et aujourd’hui avec le machine learning on doit coder pour le modéré et c’est bien là tout la différence. Cette news montre bien que c’est pas si simple de modéré une machine qui apprend de l’humain.
kroman
Ils devraient laisser faire, en mettant un disclamer pour éviter les procès et un classement comme pour les films !<br /> Ces filtres nuisent au produit entre autres en forçant des réponses aseptisées et en empêchant de discuter de certains sujets d’actualité ou historiques.
NyLan
Je vais aller lui denander de coder une IA plus performante que lui
Blap
Elle ne l’a pas invente d’elle meme mais les developpeurs n’ont pas code quelque chose pour que les utilisateurs puisse contourner ces restrictions en la menaçant de la tuer.<br /> Tu ne programme pas vraiment une IA en machine learning, tu l’alimentes, l’influence et la dirige dans une direction
Kriz4liD
Voilà la solution ! Au lieu de payer des sénégalais pour entraîner l IA , laissons les reditors s en occuper!
Simon_Kenoby
En fait si, c’est comme ça aussi que ça fonctionne en machine learning. Le machine learning n’est qu’une méthode mathématique pour trouver les paramètres optimaux d’une fonction très complexe, mais il n’y a rien d’intéligent la dedans.<br /> Au mieux ça peut en donner l’impression, comme chatGPT le fait.
pinkfloyd
« les developpeurs n’ont pas code quelque chose pour que les utilisateurs puisse contourner ces restrictions en la menaçant de la tuer. »<br /> les developpeurs vont coder quelque chose pour que les utilisateurs ne puisse pas la menacer de la tuer, c’est plus simple ecrit comme ca ?<br /> Le machine learning c’est pas juste alimenter une machine hein, faut bien lui dire ce qu’on lui apprend et ce qu’elle doit en faire…<br /> ah bah grillé par @ Simon_Kenoby
ultrabill
L’éthique c’est quand même vachement culturel.<br /> Genre l’éthique à l’américaine où tu peux te balader avec un flingue mais pas le droit d’acheter un Kinder Surprise. La lapidation, le travail des enfants ou fumer du shit est éthique /autorisé dans certains pays.
pinkfloyd
Tout a fait d’accord ! Et comme aujourd’hui il ne faut ‹ choquer › personne sur la religion, la sexualité ou l’alimentation, bon courage
SPH
Il lui manque une enveloppe charnelle (ou plutôt « ferrielle ») et on a créé un Terminator !<br /> Sans dec, vous ne trouvez pas que Schwarzi parle le GPT ?
dredre
J’avais pour tester, posé une question assez limite juste pour voir. La réponse me montrait une forme de blocage et j’ai enchainé par vous n’avez pas beaucoup d’humour… réponse :<br /> Je ne suis pas fait pour avoir de l’humour.<br /> Bizarrement j’ai repensé à Interstellar, et les % à attribuer à TARS dans ses réponses.
blood_man
Le problème de ça, c’est que sans modération il sera encore plus facile d’influencer les opinions avec de l’argent. Un peu comme aujourd’hui avec la Russie qui paie des gens pour poster en masse sur les réseaux sociaux étranger et tenter de faire croire que la guerre est justifiée.
Than
En fait, ça sert à rien de blinder l’IA, c’est les utilisateurs qu’il faut éduquer.<br /> Plus les contraintes seront fortes, et plus il y aura des personnes intéressées pour les faire exploser. Juste pour voir si c’est possible.
Sebastien_Quevilly
Le monde ne marche pas comme ça.<br /> Si je me balade dans la rue avec une panneau, « je suis un tueur ». Et que quelqu’un s’approche de moi et que je le tue. Je ne peux pas dire devant le juge, « Oui je l’ai tué, mais il était au courant ».
kroman
Quel rapport entre tes envies de meurtre et du texte généré et diffusé par une IA ?<br /> Dans les livres et les films on trouve tout type de contenu, certains réservés aux +16 ou aux adultes. Ça devrait être pareil pour le contenu issu d’une IA et non de la censure pour tous.
Voir tous les messages sur le forum

Derniers actualités

Ce jeu de course Lego vous permet de construire votre propre véhicule (et ça arrive vite !)
Comment Microsoft se donne les moyens de capter le CO2 qu'il dégage ?
Microsoft confirme les problèmes de la dernière mise à jour de Windows 11
Des abonnements à moitié prix sont disponibles chez CCleaner !
Roblox, le jeu au 160 millions de joueurs par mois, lance deux IA ; mais pour quoi faire ?
Une puissance brute de 22 TFLOPs pour la future GeForce RTX 4060 Ti
Diablo IV est tellement infernal qu'il est apparemment capable de brûler des cartes graphiques
La souris gaming Logitech G502 est à prix cassé en ce moment
Gmail : rédiger ses mails avec l'IA, ça va ressembler à quoi ?
Spatium M570 : MSI officialise son premier SSD NVMe PCI Express 5.0
Haut de page