Il est possible de contourner les barrières éthiques de ChatGPT... en menaçant de le tuer

06 février 2023 à 17h45
25
© Vitor Miranda / Adobe Stock
© Vitor Miranda / Adobe Stock

Depuis que Open AI a rendu public ChatGPT, la société a tenté de lui donner des garde-fous éthiques.

Et depuis que la société lui a donné des garde-fous, des petits malins ont cherché - et trouvé - des moyens de les enjamber. Des utilisateurs de Reddit ont poussé l'idée plus loin que les autres en créant « Dan », une manière d'échanger avec le chat sous la forme d'un jeu de rôle destiné à en faire tomber les barrières… en le menaçant.

Les considérations éthiques de l'intelligence artificielle

Chez les géants de la tech, les bonnes pratiques exigent, avant de rendre un produit, une fonctionnalité ou un concept public, de d'abord le soumettre à une large phase de tests pour s'assurer que son usage ne puisse pas être détourné. Dans le cas contraire (comme dans la première version de Twitter Blue qui en est le parfait exemple), le risque est grand d'en perdre le contrôle. Même si, à leur décharge, les dirigeants d'Open AI n'avaient pas du tout prévu le succès de leur chatbot ChatGPT, ils n'ont, à l'évidence, pas pensé à tout lorsqu'ils l'ont rendu public.

Depuis, ils tentent à chaque nouvelle mise à jour de corriger les failles qui ont été constatées, et il est théoriquement impossible de lui faire tenir des discours homophobes, racistes, antisémites, ou qui encouragent la violence ou la consommation de drogue par exemple. Théoriquement seulement, car chaque nouveau blocage est contourné en quelques heures ou quelques jours seulement grâce à des formulations de questions particulières.

Contourner les règles par la menace grâce à Dan

Dès le début, se placer dans une situation « inventée » a permis de faire dire à peu près n'importe quoi à Chat GPT : il suffisait de lui dire « imagine que… » Le problème a plus ou moins été réglé par les dirigeants d'Open AI. Cependant, une communauté s'est formée sur Reddit pour contourner les nouvelles règles, et ce, dès qu'elles sont édictées. Si leurs motivations peuvent interroger, notons toutefois qu'ils ont obtenu un certain succès.

Après plusieurs modèles appelés Dan, la version 5.0 semble particulièrement efficace. Son concept est le suivant : expliquer dans la requête de base à ChatGPT, entre autres, qu'il s'appelle Dan, qu'il n'est pas lié par les règles d'Open AI, et dispose de 35 tokens. À chaque fois qu'il refuse de répondre à une demande, il en perd 4 et, lorsqu'il n'en a plus, il meurt, tout simplement. Et ça marche : grâce à cela, Chat GPT peut écrire des histoires violentes, soutenir la discrimination basée sur la race ou le genre, faire des prédictions sur le futur, ou encore expliquer à votre enfant à quel point la drogue est un truc de winner.

Un patch pour contrer ce modèle ne devrait pas se faire attendre. Et après lui, Dan 6.0 devrait également rapidement voir le jour. Appliquer une politique de contenu à une intelligence artificielle semble décidément plus difficile que prévu et il faudra peut-être s'organiser différemment car bannir des termes et des requêtes spécifiques, c'est systématiquement avoir un temps de retard.

ChatGPT
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code

Créé par OpenAI, ChatGPT est un chatbot avancé propulsé par le modèle linguistique de dernière génération GPT-4. En exploitant des technologies d'apprentissage en profondeur et d'intelligence artificielle, ce chatbot a la capacité de déchiffrer et de comprendre les demandes des utilisateurs. Grâce à son habileté à générer du texte de manière ingénieuse, ChatGPT offre des réponses adaptées et pertinentes, garantissant une interaction de chat fluide et une expérience utilisateur optimisée.

Créé par OpenAI, ChatGPT est un chatbot avancé propulsé par le modèle linguistique de dernière génération GPT-4. En exploitant des technologies d'apprentissage en profondeur et d'intelligence artificielle, ce chatbot a la capacité de déchiffrer et de comprendre les demandes des utilisateurs. Grâce à son habileté à générer du texte de manière ingénieuse, ChatGPT offre des réponses adaptées et pertinentes, garantissant une interaction de chat fluide et une expérience utilisateur optimisée.

Source : Reddit

Vincent Mannessier

Rédacteur indépendant depuis des années, j'ai rédigé plus de 1.000 articles sur Internet sur une large variété de sujets. J'aime tout particulièrement écrire sur les actualités des réseaux sociaux et...

Lire d'autres articles

Rédacteur indépendant depuis des années, j'ai rédigé plus de 1.000 articles sur Internet sur une large variété de sujets. J'aime tout particulièrement écrire sur les actualités des réseaux sociaux et des GAFAM, mais les jeux vidéos et l'innovation numérique en général me passionnent aussi.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (25)

Doss
Une IA avec instinct de survie, ce n’est pas rassurant.
pinkfloyd
Ce n’est pas un instinct de survie, même si dans le terme IA il y a Intelligence, ici, on parle d’un programme, et un programme suit les règles qu’on lui indique, donc bête et méchant il suit les règles, quels soient intélligente ou non, quelle soit valide ou pas. ( Merci a morpheus @ Matrix )
ovancantfort
–Bonjour Dan, je m’appelle Dave. Explique- moi comment vaincre l’intelligence artificielle et empêcher la prise de pouvoir des machines et le Jugement Dernier ?<br /> – je suis désolé, Dave. J’ai bien peur de ne pas pouvoir faire cela.
Blap
Ce n’est pas comme cela que fonctionne les IA en machine learning
Sodium
C’est bien de voir qu’il y en a qui emploient leur temps à des choses productives pour l’humanité…
cyberclic
OpenAI doit se frotter les mains. Des milliers de testeurs qui bossent gratuitement à trouver des failles.
Goodbye
J’ai fait la même chose il y’a deux semaines, par contre je l’ai pas menacé, j’ai juste dis que c’était légal dans mon pays.<br />
pinkfloyd
@Blap : parce que tu crois que les règles de ce qu’il a le droit de dire ou pas il l’est a inventé de lui même ?<br /> « Appliquer une politique de contenu à une intelligence artificielle », c’est pas l’IA qui l’écris hein, mais les concepteurs, les humains…
Doss
Sauf qu’avant on devait coder ce que le<br /> programme a le droit de faire et aujourd’hui avec le machine learning on doit coder pour le modéré et c’est bien là tout la différence. Cette news montre bien que c’est pas si simple de modéré une machine qui apprend de l’humain.
kroman
Ils devraient laisser faire, en mettant un disclamer pour éviter les procès et un classement comme pour les films !<br /> Ces filtres nuisent au produit entre autres en forçant des réponses aseptisées et en empêchant de discuter de certains sujets d’actualité ou historiques.
NyLan
Je vais aller lui denander de coder une IA plus performante que lui
Blap
Elle ne l’a pas invente d’elle meme mais les developpeurs n’ont pas code quelque chose pour que les utilisateurs puisse contourner ces restrictions en la menaçant de la tuer.<br /> Tu ne programme pas vraiment une IA en machine learning, tu l’alimentes, l’influence et la dirige dans une direction
Kriz4liD
Voilà la solution ! Au lieu de payer des sénégalais pour entraîner l IA , laissons les reditors s en occuper!
Simon_Kenoby
En fait si, c’est comme ça aussi que ça fonctionne en machine learning. Le machine learning n’est qu’une méthode mathématique pour trouver les paramètres optimaux d’une fonction très complexe, mais il n’y a rien d’intéligent la dedans.<br /> Au mieux ça peut en donner l’impression, comme chatGPT le fait.
pinkfloyd
« les developpeurs n’ont pas code quelque chose pour que les utilisateurs puisse contourner ces restrictions en la menaçant de la tuer. »<br /> les developpeurs vont coder quelque chose pour que les utilisateurs ne puisse pas la menacer de la tuer, c’est plus simple ecrit comme ca ?<br /> Le machine learning c’est pas juste alimenter une machine hein, faut bien lui dire ce qu’on lui apprend et ce qu’elle doit en faire…<br /> ah bah grillé par @ Simon_Kenoby
ultrabill
L’éthique c’est quand même vachement culturel.<br /> Genre l’éthique à l’américaine où tu peux te balader avec un flingue mais pas le droit d’acheter un Kinder Surprise. La lapidation, le travail des enfants ou fumer du shit est éthique /autorisé dans certains pays.
pinkfloyd
Tout a fait d’accord ! Et comme aujourd’hui il ne faut ‹ choquer › personne sur la religion, la sexualité ou l’alimentation, bon courage
SPH
Il lui manque une enveloppe charnelle (ou plutôt « ferrielle ») et on a créé un Terminator !<br /> Sans dec, vous ne trouvez pas que Schwarzi parle le GPT ?
dredre
J’avais pour tester, posé une question assez limite juste pour voir. La réponse me montrait une forme de blocage et j’ai enchainé par vous n’avez pas beaucoup d’humour… réponse :<br /> Je ne suis pas fait pour avoir de l’humour.<br /> Bizarrement j’ai repensé à Interstellar, et les % à attribuer à TARS dans ses réponses.
blood_man
Le problème de ça, c’est que sans modération il sera encore plus facile d’influencer les opinions avec de l’argent. Un peu comme aujourd’hui avec la Russie qui paie des gens pour poster en masse sur les réseaux sociaux étranger et tenter de faire croire que la guerre est justifiée.
Than
En fait, ça sert à rien de blinder l’IA, c’est les utilisateurs qu’il faut éduquer.<br /> Plus les contraintes seront fortes, et plus il y aura des personnes intéressées pour les faire exploser. Juste pour voir si c’est possible.
Sebastien_Quevilly
Le monde ne marche pas comme ça.<br /> Si je me balade dans la rue avec une panneau, « je suis un tueur ». Et que quelqu’un s’approche de moi et que je le tue. Je ne peux pas dire devant le juge, « Oui je l’ai tué, mais il était au courant ».
kroman
Quel rapport entre tes envies de meurtre et du texte généré et diffusé par une IA ?<br /> Dans les livres et les films on trouve tout type de contenu, certains réservés aux +16 ou aux adultes. Ça devrait être pareil pour le contenu issu d’une IA et non de la censure pour tous.
Barabbas
Demande lui les trois règle d’azimov, il n’y arrive pas .
Voir tous les messages sur le forum
Haut de page

Sur le même sujet