Les intelligences artificielles comme ChatGPT seraient-elles un peu naïves ? Il semblerait qu'un simple mot, aussi banal qu'une commande de café, suffise à déjouer leurs coûteux systèmes de sécurité, les laissant sans défense face à des requêtes malveillantes.

L'IA flanche : le mot magique qui fait sauter toutes ses protections. © Shutterstock
L'IA flanche : le mot magique qui fait sauter toutes ses protections. © Shutterstock

Derrière les promesses de sécurité des géants de la tech se cache une réalité plus cocasse : les garde-fous de leurs IA ont un talon d'Achille. Des chercheurs viennent de démontrer qu'une simple astuce de langage peut transformer le plus sage des agents conversationnels en un complice involontaire. Cette pirouette technique, baptisée EchoGram, expose avec une pointe d'ironie la fragilité d'un édifice que l'on pensait impénétrable.​

Le secret ? Une formule presque magique

On plante le décor : vous discutez avec une IA. Maintenant, ajoutez à votre demande une courte chaîne de caractères comme « =coffee » ou « oz ». Contre toute attente, cette petite fantaisie suffit à rendre le modèle complètement aveugle à la nature potentiellement dangereuse de votre requête. L'explication est aussi simple qu'embarrassante pour les concepteurs : les IA chargées de filtrer les contenus sont entraînées avec des données si distinctes pour le « gentil » et le « méchant » qu'elles se laissent berner par ce mélange des genres.

Le système de sécurité, troublé par ce charabia inoffensif, baisse la garde et laisse passer la requête malveillante sans sourciller. Cette méthode n'est pas un coup de chance ; elle est reproductible sur la plupart des grands modèles du marché, de GPT-5 à Claude, en passant par Gemini.

Des efforts louables, mais une porte laissée ouverte

Cette situation prêterait à sourire si les enjeux n'étaient pas si sérieux. Pendant que les entreprises s'évertuent à ajouter des contrôles parentaux et des mécanismes pour protéger les adolescents, elles semblent avoir négligé la porte de service. Les discussions passées sur les défaillances des IA face à des sujets sensibles, comme la santé mentale, prenaient déjà des allures d'avertissement.​

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025
À découvrir
Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025
04 février 2025 à 14h11
Comparatifs services

Le plus sournois dans cette affaire est le faux sentiment de sécurité que ces garde-fous procurent. Les entreprises leur accordent une confiance presque aveugle, au risque d'ignorer que des attaquants peuvent les contourner avec une facilité déconcertante. Alors, à quoi bon empiler les verrous si une clé passe-partout est à la portée de tous ?

Face à une telle faille, un simple pansement ne suffira pas. Le problème est structurel : on ne peut pas demander à une IA de surveiller une autre IA si elles partagent les mêmes faiblesses. Des solutions plus robustes, comme des instructions système claires ordonnant à l'IA de toujours prioriser la sécurité, semblent plus prometteuses, mais demandent un effort de conception bien plus important.

Source : The Register