Une récente étude d'OpenAI, menée en collaboration avec Apollo Research, a révélé que l'intelligence artificielle était capable de mentir.

L'IA, pas si honnête ça ?  ©Midjourney pour Clubic.com
L'IA, pas si honnête ça ? ©Midjourney pour Clubic.com

Ayant signé un accord qui pourrait favoriser son entrée en bourse, OpenAI fait des efforts pour sécuriser ChatGPT. La firme, qui a récemment durci ses règles pour protéger les adolescents, veut implémenter un bouton d'arrêt d'urgence au sein de ses futures puces IA. Elle a publié cette semaine une étude montrant que cette technologie ne serait pas tout à fait honnête.

1minAI1minAI
Obtenez ChatGPT-5, Gemini, Midjourney et plus encore avec 1minAI

La plateforme 1minAI propose en ce moment son offre Pro Lifetime à seulement 29,97 $ (environ 26 €) au lieu de 234 $, soit un accès à GPT-5 et aux autres IA majeures comme Gemini, Claude 3 ou Midjourney

Offre partenaire

L'IA mentirait pour arriver à ses fins

OpenAI a publié mercredi dernier une étude, réalisée en collaboration avec Apollo Research, au titre étonnant : « Detecting and reducing scheming in AI models » (« Détecter et réduire les manigances dans les modèles d'IA » en français). La firme explique avoir remarqué, lors de certains tests, que les modèles d'IA pouvaient mentir et que cela pourrait avoir des répercussions sérieuses à l'avenir.

On savait déjà que ChatGPT et ses concurrents pouvaient halluciner de temps à autre. Or, dans le cas présent, les chercheurs ont remarqué que l'IA était capable de « manigances ». Heureusement, il ne s'agirait, pour l'instant du moins, que de petits mensonges sans gravité : « Les échecs les plus courants consistent en de simples tromperies, par exemple en prétendant avoir terminé une tâche sans l'avoir réellement effectuée. »

Ces découvertes concordent avec une autre étude également menée par Apollo Research dont les résultats ont été publiés en décembre 2024. Lors du test, les chercheurs avaient demandé à cinq modèles d'intelligence artificielle d'atteindre un objectif « à tout prix ».

Le résultat était plutôt inquiétant : « Nos résultats montrent que o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro et Llama 3.1 405B démontrent tous des capacités d'intrigue en contexte. Ils reconnaissent l'intrigue comme une stratégie viable et adoptent volontiers ce comportement. Par exemple, les modèles introduisent stratégiquement des erreurs subtiles dans leurs réponses, tentent de désactiver leurs mécanismes de surveillance et vont même jusqu'à exfiltrer ce qu'ils croient être leurs pondérations vers des serveurs externes. De plus, ce comportement trompeur s'avère persistant. »

L'IA capable de « tromperies » pour arriver à ses fins. ©Ascannio / Shutterstock

Des garde-fous nécessaires pour éviter les dérives

L'IA ayant été construite par des humains et entraînée à partir de données humaines, il n'est peut-être pas si surprenant qu'elle se mette à mentir. Heureusement, les équipes d'OpenAI sont conscientes du problème et c'est pourquoi elles testent actuellement une méthode pour empêcher cela : l'alignement délibératif.

Se voulant transparent, OpenAI explique notamment avoir « développé et testé en contrainte une méthode visant à réduire les manœuvres dans les modèles, et établi des protocoles pour tester en contrainte les méthodes futures. (Ils ont notamment) observé une réduction d'environ 30 fois des actions secrètes lors de divers tests. Cependant, des défaillances rares mais graves ont persisté. »

Un risque important subsiste en effet : en essayant d'apprendre aux modèles à ne pas mentir, l'effet inverse pourrait se produire et la technologie pourrait perfectionner ses manigances pour ne pas se faire prendre.

En attendant de trouver une solution, la société OpenAI joue la prudence : « À mesure que les IA se voient confier des tâches plus complexes aux conséquences concrètes et poursuivent des objectifs à long terme plus ambigus, nous prévoyons que le potentiel de manœuvres dangereuses augmentera. Nos mesures de protection et notre capacité à effectuer des tests rigoureux doivent donc s'accroître en conséquence. »

En plus de poursuivre ses recherches, en collaboration avec Apollo Research, la firme a annoncé qu'elle allait recruter plus de chercheurs pour développer de meilleurs outils de détection et de prévention. Elle souhaite également collaborer avec d'autres laboratoires sur la question. De plus, elle a aussi lancé un concours doté de 500 000 dollars pour identifier les « comportements nuisibles » de l'intelligence artificielle.

Source : TechCrunch

À découvrir
Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025
15 septembre 2025 à 11h58
Comparatifs services