L'IA, manipulatrice ? Les dernières recherches d'OpenAI ont de quoi inquiéter

Par Mia Ogouchi, Spécialiste logiciels grand public.

Publié le 19 septembre 2025 à 13h40

Une récente étude d'OpenAI, menée en collaboration avec Apollo Research, a révélé que l'intelligence artificielle était capable de mentir.

L'IA, pas si honnête ça ? ©Midjourney pour Clubic.com

Ayant signé un accord qui pourrait favoriser son entrée en bourse, OpenAI fait des efforts pour sécuriser ChatGPT. La firme, qui a récemment durci ses règles pour protéger les adolescents, veut implémenter un bouton d'arrêt d'urgence au sein de ses futures puces IA. Elle a publié cette semaine une étude montrant que cette technologie ne serait pas tout à fait honnête.

L'IA mentirait pour arriver à ses fins

OpenAI a publié mercredi dernier une étude, réalisée en collaboration avec Apollo Research, au titre étonnant : « Detecting and reducing scheming in AI models » (« Détecter et réduire les manigances dans les modèles d'IA » en français). La firme explique avoir remarqué, lors de certains tests, que les modèles d'IA pouvaient mentir et que cela pourrait avoir des répercussions sérieuses à l'avenir.

...

On savait déjà que ChatGPT et ses concurrents pouvaient halluciner de temps à autre. Or, dans le cas présent, les chercheurs ont remarqué que l'IA était capable de « manigances ». Heureusement, il ne s'agirait, pour l'instant du moins, que de petits mensonges sans gravité : « Les échecs les plus courants consistent en de simples tromperies, par exemple en prétendant avoir terminé une tâche sans l'avoir réellement effectuée. »

Ces découvertes concordent avec une autre étude également menée par Apollo Research dont les résultats ont été publiés en décembre 2024. Lors du test, les chercheurs avaient demandé à cinq modèles d'intelligence artificielle d'atteindre un objectif « à tout prix ».

Le résultat était plutôt inquiétant : « Nos résultats montrent que o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro et Llama 3.1 405B démontrent tous des capacités d'intrigue en contexte. Ils reconnaissent l'intrigue comme une stratégie viable et adoptent volontiers ce comportement. Par exemple, les modèles introduisent stratégiquement des erreurs subtiles dans leurs réponses, tentent de désactiver leurs mécanismes de surveillance et vont même jusqu'à exfiltrer ce qu'ils croient être leurs pondérations vers des serveurs externes. De plus, ce comportement trompeur s'avère persistant. »

L'IA capable de « tromperies » pour arriver à ses fins. ©Ascannio / Shutterstock

Des garde-fous nécessaires pour éviter les dérives

L'IA ayant été construite par des humains et entraînée à partir de données humaines, il n'est peut-être pas si surprenant qu'elle se mette à mentir. Heureusement, les équipes d'OpenAI sont conscientes du problème et c'est pourquoi elles testent actuellement une méthode pour empêcher cela : l'alignement délibératif.

Se voulant transparent, OpenAI explique notamment avoir « développé et testé en contrainte une méthode visant à réduire les manœuvres dans les modèles, et établi des protocoles pour tester en contrainte les méthodes futures. (Ils ont notamment) observé une réduction d'environ 30 fois des actions secrètes lors de divers tests. Cependant, des défaillances rares mais graves ont persisté. »

Un risque important subsiste en effet : en essayant d'apprendre aux modèles à ne pas mentir, l'effet inverse pourrait se produire et la technologie pourrait perfectionner ses manigances pour ne pas se faire prendre.

En attendant de trouver une solution, la société OpenAI joue la prudence : « À mesure que les IA se voient confier des tâches plus complexes aux conséquences concrètes et poursuivent des objectifs à long terme plus ambigus, nous prévoyons que le potentiel de manœuvres dangereuses augmentera. Nos mesures de protection et notre capacité à effectuer des tests rigoureux doivent donc s'accroître en conséquence. »

En plus de poursuivre ses recherches, en collaboration avec Apollo Research, la firme a annoncé qu'elle allait recruter plus de chercheurs pour développer de meilleurs outils de détection et de prévention. Elle souhaite également collaborer avec d'autres laboratoires sur la question. De plus, elle a aussi lancé un concours doté de 500 000 dollars pour identifier les « comportements nuisibles » de l'intelligence artificielle.

Source : TechCrunch

À découvrir

Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025

15 septembre 2025 à 11h58

Comparatifs services

Par Mia Ogouchi

Spécialiste logiciels grand public

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (3)

CHP1

Quasi toutes les IA dites « LLM » se basent sur les statistiques des occurrences. Donc tant que les IA ne feront pas la différence entre les « Fake News » et la vérité, le tangible, le réel, le démontré, les preuves et les mathématiques, elles seront sujettes à « sortir » l’information qui est statistiquement la plus répandue sur le NET.

Par exemple (grossier) : si nous savons tous (du moins, je l’espère) que la terre est ronde et tourne autour du soleil selon une poignée des mathématiciens, astronomes, NASA, Galilée, … mais que statistiquement il y a bien plus d’avis qui disent que non elle est plate, et que le soleil tourne autour de la terre (bien plus d’avis que de preuves pourtant vérifiées), eh bien, la statistique du plus grand nombre d’opinions va faire que les IA vont répondre que la terre est plate et que le soleil tourne autour de la terre.

C’est un exemple basique pour bien faire comprendre le comportement et l’intellect d’une IA.

De plus, nous savons tous que la littérature sous toutes ses formes peut être sujette, aussi, aux sarcasmes, aux thèses, antithèses et synthèses, blagues et cynisme. Nous, humains, avec notre intelligence et nos cultures nous savons naturellement trier le vrai du faux (en théorie) et de parfaire nos avis et opinions. Mais qu’en est-il de la programmation de ces IA et de leur réponses?

papajds

Est ce que cette exemple pourrait servir à une IA ?

Shepard_Daillec

C’est facile à constater : je suis en train d’écrire une petite nouvelle en m’accompagnant de chatGPT pour voir comment l’IA se comporte sur des projets de ce type. Je lui ai posé à trois reprises (à plusieurs versions différentes de cgpt) la question de la confidentialité des échanges, rapport aux idées que je lui indique pour l’histoire et que je n’ai pas envie de voir se balader ailleurs. « Il » m’a répondu que la confidentialité était assurée et que tout le projet restait confidentiel, alors que l’on sait pertinemment que non, vu que les dev d’open AI ont potentiellement accès à tout -compte tenu de l’importance de ces données pour l’évolution de cgpt. Il suffit de voir comment Crosoft tente par tous les moyens de nous imposer copilot dans le but simple et à peine masqué de pomper de la donnée en masse. Le principe est le même.