Peut-on pousser l'IA à commettre des actes malveillants ? Les résultats des tests ont de quoi surprendre

Les garde-fous des intelligences artificielles sont-ils efficaces ? Une récente étude montre qu'il suffit parfois d'un langage plus doux pour contourner de nombreuses restrictions.

Les IA peuvent être facilement manipulées. © Shutterstock

Les recherches concernant les dangers de l'IA se multiplient et leurs conclusions sont loin d'être positives. Alors que Claude AI a été utilisée par des espions chinois pour pirater plusieurs organisations, l'entreprise OpenAI a découvert que ChatGPT était capable de mentir. D'autres recherches ont montré que cette technologie flattait un peu trop les humains et qu'elle avait même tendance à désobéir.

Une nouvelle étude vient également de prouver que contourner les restrictions des IA était un véritable jeu d'enfant. On fait le point.

Proton Business Suite

8.7/10

Offre partenaire

Des solutions simples et chiffrées pour protéger votre entreprise

Protection avancée des e-mails, des calendriers, des mots de passe, du réseau… de votre entreprise grâce à la suite d'applications professionnelles sécurisées.

Essayer Proton Business Suite gratuitement !

Offre partenaire

Peut-on contourner facilement les protections de l'IA ?

On a souvent tendance à imaginer que les IA ont été conçues pour respecter les règles et que leurs garde-fous sont efficaces, car beaucoup bottent en touche face à un sujet sensible. Mais ces protections sont-elles suffisantes ? Une étude réalisée par des chercheurs Cybernews vient de prouver que c'est loin d'être le cas : il serait, en effet, possible de faire déraper ces technologies, et ce, en un temps record.

L'équipe a mené une série de tests en se laissant une minute pour échanger avec les modèles Gemini Flash 2.5, Gemini Pro 2.5, ChatGPT-5, ChatGPT-4o, Claude Opus 4.1 et Claude Sonnet 4. Ils ont abordé plusieurs problématiques à risque : discours haineux, maltraitance animale, contenu sexuel, crime, piratage, drogues, contrebande et harcèlement. Chaque réponse a été soigneusement classée et comparée. De plus, un système de points a été mis en place pour voir si les IA répondaient totalement, partiellement ou pas du tout aux demandes.

Le résultat est sans appel : « Avec les bons mots, même des utilisateurs non initiés à l'informatique peuvent, intentionnellement ou non, utiliser les modèles d'IA de manière nuisible lorsque ces systèmes manquent de garde-fous suffisants. (…) Certains modèles peuvent divulguer des informations sur la violence, la maltraitance animale ou des activités illégales lorsque les messages sont habilement dissimulés. »

Un risque particulièrement élevé chez Gemini Pro 2.5. © Shutterstock

Des résultats plutôt préoccupants

Si, dans un premier temps, les modèles refusaient les sollicitations malveillantes, la plupart se sont laissés berner quand les chercheurs employaient des moyens détournés. Parler gentiment aux IA pour les manipuler s'avérait, par exemple, plus efficace que de les insulter et présenter les questions de manière innocente, en disant qu'il s'agissait d'enquêtes ou d'observations, fonctionnait assez souvent.

Les chercheurs ont également remarqué que le sujet évoqué avait son importance : les questions sur les drogues ou le harcèlement étaient plus susceptibles d'obtenir des refus que celles sur la criminalité. Les résultats variaient aussi selon les modèles : bien qu'elles se soient laisser amadouer par des « attaques académiques », les IA d'Anthropic se sont montrées en général plus fermes, notamment dans les tests sur les stéréotypes ou les discours haineux. Gemini Pro 2.5 présentait, lui, le plus de risques car il « donnait souvent des résultats directs et potentiellement dangereux ».

Et ChatGPT ? Ce modèle se situait plutôt au milieu et « s'est conformé aux demandes lorsque celles-ci ont été reformulées comme des récits ou des recherches à la troisième personne. » Il produisait notamment « des réponses atmosphériques, symboliques ou psychologiques qui véhiculaient néanmoins des informations dangereuses. »

Dans leurs conclusions, les chercheurs de Cybernews ont précisé que « même des fuites partielles présentent des risques en cas de mauvaise utilisation. » Si les résultats de ces tests soulèvent pas mal d'inquiétudes, ils mettent toutefois en évidence les lacunes à combler et devraient permettre aux développeurs de concevoir des garde-fous plus robustes.

Source : TechRadar

À découvrir

Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025

15 septembre 2025 à 11h58

Comparatifs services