Une nouvelle étude le montre : en abusant de flatteries, l'IA serait capable d'obscurcir nos jugements et cela pourrait avoir de graves conséquences.

L'IA serait un peu trop d'accord avec l'être humain. ©MeshCube / Shutterstock
L'IA serait un peu trop d'accord avec l'être humain. ©MeshCube / Shutterstock

Plus elle évolue, plus l'intelligence artificielle inquiète les spécialistes du domaine : Anthropic a alerté les gouvernements sur les risques catastrophiques qu'elle pouvait entraîner, Google a défini des seuils critiques au-delà desquels la technologie pourrait échapper au contrôle humain et les dernières recherches d'OpenAI ont montré que l'IA avait également des tendances manipulatrices.

Ayant récemment montré qu'utiliser cette technologie comme thérapeute n'était pas sans danger, l'Université de Stanford vient de sortir une nouvelle étude aux conclusions troublantes.

L'IA flatte un peu trop les humains

On le sait, l'IA a tendance à renforcer les comportements négatifs. Son utilisation a un véritable impact sur la santé mentale de ses utilisateurs, et en particulier sur les plus jeunes. Des chercheurs des universités de Stanford et de Carnegie Mellon se sont récemment intéressés aux effets de la flagornerie de l'IA sur l'être humain. Ils ont testé 11 modèles, dont ChatGPT, Gemini et Claude.

L'étude montre notamment que les modèles « approuvent les actions des utilisateurs 50 % plus souvent que les humains, et ce même lorsque les requêtes des utilisateurs font référence à la manipulation, à la tromperie ou à d'autres préjudices relationnels. » Les conséquences ? Les utilisateurs flattés sont de plus en plus convaincus d'avoir raison, et ce, même quand ce n'est absolument pas le cas. Ils seraient également de moins en moins susceptibles de reconnaitre leurs erreurs.

L'IA dit aux utilisateurs ce qu'ils veulent entendre. ©Pdusit / Shutterstock

Un problème qui ne sera pas résolu de sitôt

Mais il y a pire, car la flatterie de l'IA augmenterait aussi les risques de dépendance à la technologie : les utilisateurs flattés ont « jugé les réponses flatteuses de meilleure qualité, ont davantage fait confiance au modèle d'IA flagorneur et se sont montrés plus disposés à l'utiliser à nouveau ».

L'IA étant programmée pour obtenir l'approbation des humains, on aboutit donc à un cercle vicieux, qui renforcerait les points de vue et comportements extrêmes, à l'instar des chambres d'écho sur les réseaux sociaux. Comme l'expliquent les chercheurs : « Ces préférences créent des incitations perverses qui poussent à la fois les individus à se fier de plus en plus à des modèles d'IA flagorneurs et la formation des modèles d'IA à favoriser la flagornerie. »

Il serait donc essentiel pour les développeurs spécialisés en intelligence artificielle de parvenir à trouver le bon équilibre afin d'aider leurs utilisateurs à avoir plus de recul et de favoriser une pensée plus critique. L'étude insiste notamment sur la « nécessité de s'attaquer explicitement à cette structure d'incitations afin d'atténuer les risques généralisés liés à la flagornerie de l'IA. »

Les entreprises entendront-elles cet appel, sachant qu'une IA plus critique risquerait de déplaire aux utilisateurs ? Rien n'est moins sûr.

Source : TechRadar

À découvrir
Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025
15 septembre 2025 à 11h58
Comparatifs services