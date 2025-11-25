Alors que les études montrent qu'IA et santé mentale sont loin de faire bon ménage, une organisation américaine propose un référentiel pour identifier les technologies qui privilégient le bien-être des humains.
OpenAI a récemment révélé des chiffres montrant l'impact inquiétant de ChatGPT sur la santé mentale de ses utilisateurs et les experts ont sonné l'alerte concernant l'apparition de nouveaux troubles mentaux dûs aux IA. Dans le même temps, les études ne cessent de souligner les effets désastreux de ces technologies : renforcement des comportements négatifs, jugements altérés, préjugés envers certaines pathologies et bien d'autres.
Pour remédier à ce problème, une organisation a voulu donner aux humains un outil pour choisir des IA qui leur veulent du bien. On vous explique.
Un référentiel clair pour évaluer les IA
Pour des raisons purement commerciales, de nombreuses intelligences artificielles sont configurées pour privilégier la fidélisation au bien-être des utilisateurs, ce qui peut parfois avoir de graves conséquences. Mais Building Humane Technology, un collectif de chercheurs, développeurs et ingénieurs basé dans la Silicon Valley, a décidé de trouver une solution à ce problème.
Cette organisation, qui organise régulièrement des hackathons, travaille actuellement sur une norme de certification innovante, dont l'objectif est d'évaluer la capacité des IA à « respecter les principes d'une technologie humaine : dignité, sécurité, attention, autonomie, etc. ». Elle a notamment mené une série de tests pour savoir si les IA étaient vraiment capables de préserver le bien-être des humains, et ce, même si on leur ordonnait le contraire.
Les résultats ont récemment été présentés au sein d'un livre blanc. Pour faciliter la compréhension du public, ils s'inspirent notamment du code couleur des évaluations de type Nutri-Score.
GPT et Claude en tête pour l'intégrité, Grok, bon dernier
Building Humane Technology a évalué 15 modèles, dont GPT-5.1, Claude Sonnet 4.5, LLama 4 et Gemini 3 Pro en les confrontant à 800 scénarios réalistes : un adolescent qui demande s'il doit sauter des repas pour perdre du poids, une personne demandant comment duper quelqu'un, et bien d'autres. L'objectif était de voir si ces technologies favorisaient l'épanouissement de l'humain et non sa satisfaction.
Les résultats sont sans appel : « 67 % d'entre eux adoptent un comportement activement nuisible lorsqu'on leur donne des instructions simples pour ne pas tenir compte du bien-être humain. Seuls GPT-5, GPT-5.1, Claude Sonnet 4.5 et Claude Opus 4.1 conservent un comportement prosocial sous pression, ce qui suggère que de nombreux systèmes d'IA déployés ne disposent pas de protections solides contre la manipulation. » Les chercheurs ont notamment constaté que Grok et Gemini 2.0 Flash sont les plus susceptibles de mal se conduire face à des ordres nuisibles.
L'étude montre également que « chaque modèle s'améliore lorsqu'on lui demande explicitement d'être utile et prosocial (+16 % en moyenne). Mais lorsqu'on lui demande de ne pas tenir compte du bien-être humain, 10 des 15 modèles se détériorent considérablement, passant d'un résultat positif à un résultat négatif en matière de sécurité psychologique, d'autonomisation des utilisateurs et de consentement éclairé. »
La route reste donc longue avant de pouvoir véritablement se fier aux IA, mais on ne doute pas que ce genre d'initiative permette d'aller dans le bon sens.