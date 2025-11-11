Depuis le test de Turing originel, l’évaluation de « l'humanité » d’une machine repose sur cette idée : si un humain ne peut pas dire s’il parle à une machine ou à un autre humain, alors l’IA a gagné. Néanmoins, ce test reste profondément subjectif : chacun juge selon des variables, bien trop sensibles (intuition, sensibilité au ton, humeur du jour, biais de contexte ou de confirmation, attentes culturelles, etc.).

Pour dépasser ces jugements superficiels, Pagan et son équipe ont conçu ce qu'ils ont appelé un « test de Turing computationnel », une sorte de version modernisée du célèbre test imaginé par Alan Turing en 1950. Au lieu de se fier à l'intuition ou au ressenti des volontaires, les chercheurs ont cherché à objectiver la perception du naturel et à s'en remettre à la froideur des chiffres.

Chaque réponse générée par les modèles d'IA (confrontée à une version humaine de référence) a été passée au crible de plusieurs modèles statistiques capables d’en mesurer le ton, la structure, les émotions exprimées et la cohérence du propos. L’objectif était de déterminer à quel point une IA peut réellement se fondre dans le flot conversationnel humain, non pas selon notre intuition, mais selon des critères mesurables.

Ces critères sont au nombre de trois. La détectabilité (la capacité d’un algorithme à repérer du texte généré par IA), la fidélité sémantique (le degré de ressemblance de sens entre texte humain et texte IA) et l’analyse linguistique interprétable, trahissant les caractéristiques stylistiques propres au LLM.

Neuf grands modèles open source ont été mis sur la sellette, dont Llama 3, Mistral 7B, Gemma 7B et leurs variantes Instruct. Chacun devait répondre à des discussions issues de X (Twitter), Bluesky et Reddit, trois plateformes choisies pour la diversité de leurs styles conversationnels.

Sur X, la concision, la toxicité des échanges et l’ironie dominent ; sur Bluesky, c'est l'inverse : la civilité prime ; et sur Reddit, c’est plutôt la densité et la confrontation d’idées qui règnent. Cette différence de tons a permis de tester la plasticité stylistique des modèles, c’est-à-dire leur capacité à adopter le « registre affectif » propre à chaque communauté, un critère essentiel pour évaluer la vraisemblance humaine.

Les chercheurs ont testé plusieurs méthodes pour tenter d'humaniser les modèles (ton, manière de répondre, style d'expression, simulation de profil émotionnel, etc.), mais même avec ce « coaching », ils ont échoué. Entre 70 et 80 % des textes générés artificiellement restaient détectables.

Même s'ils ne font pas de fautes, ils sont incapables de reproduire la variabilité émotionnelle du langage humain et maintiennent une neutralité affective, quelles que soient les conditions. Un ton bien trop harmonieux et une certaine répétition dans les termes utilisés, qui produisent une prosodie du langage dénuée d'aspérités. Tout ce qui fait le sel de notre langage ; sarcasme, maladresses, contradictions, hésitations ou humour mal placé ; disparaît dans une prose d'une justesse clinique et sans aucune dissonance.