Ils raisonnent plus vite que nous, corrigent leurs erreurs sans aide, manipulent les subtilités du langage avec une aisance déconcertante. Pourtant, même ceux qui les ont créés reconnaissent ne pas comprendre entièrement comment ces modèles parviennent à être si performants.

L’intelligence des modèles de langage réside dans leurs performances, pas dans leur compréhension d’eux-mêmes. © earthphotostock / Shutterstock
L’intelligence des modèles de langage réside dans leurs performances, pas dans leur compréhension d’eux-mêmes. © earthphotostock / Shutterstock

On ne conçoit pas une machine sans en comprendre les rouages. C’est la règle d'or de toute ingénierie : un plan, une finalité, une mécanique lisible. Toutefois, les modèles de langage brisent cette logique. Nous leur faisons ingurgiter des mots et leur donnons une tâche unique : prédire le mot suivant et à partir de ces données et de cet objectif, ils construisent leur propre logique interne. Aucun code explicite, juste une quantité colossale de paramètres ajustés en boucle par un algorithme d’optimisation statistique.

Ce processus, pourtant parfaitement observable dans ses moindres chiffres, produit parfois des comportements qui échappent à toute intuition. Ces machines, conçues pour achever des phrases, acquièrent la capacité de résoudre des problèmes complexes, de contextualiser une idée, de corriger leurs propres imprécisions. Non parce qu’elles l’auraient appris comme un humain, mais parce que ces comportements émergent spontanément de l’accumulation d’adaptations locales.

Lorsque les chercheurs tentent d'appréhender d'où provient cette efficacité, ils se retrouvent face à un nuage opaque : tout est accessible – les valeurs internes, les signaux, les sorties – mais rien n'explique pourquoi le modèle choisit x plutôt que y lorsqu'il répond. La transparence d'une structure ne signifie pas qu'on la comprend.

C’est ce que décrit Martin Wattenberg, chercheur à Harvard, lorsqu’il dit : « Plantez une graine de tomate dans la terre, vous obtiendrez un plant de tomate. Vous l’avez arrosée, désherbée, mais comment diable cette plante fonctionne-t-elle ? » Une image volontairement désarmante pour exprimer l'état actuel de l'IA : les modèles actuels sont cultivés, non encore pleinement maîtrisés.

Autopsie d’un raisonnement artificiel

Les modèles utilisés aujourd’hui, comme ChatGPT-4 ou Claude, fonctionnent sur une base comportant des milliards de paramètres organisés en couches. Il serait tentant de croire que, parce que ces structures sont intégralement observables, il serait possible d’en déduire un mode d’emploi, mais c’est un leurre.

Pour percer cette opacité, certains chercheurs choisissent une approche plus expérimentale. Plutôt que d'observer passivement les réponses du modèle, ils interviennent directement sous son « capot ». Ils modifient certains paramètres internes (les valeurs numériques qui déterminent la façon dont les informations circulent dans le réseau), un peu comme un neurochirurgien qui altérerait le fonctionnement d’un neurone pour observer ce que cela change dans le comportement global d'un cerveau.

Ils agissent aussi sur ce qu’on appelle les activations : des signaux produits temporairement, à chaque étape du traitement d’un texte. En modifiant ces activations à la volée, ils peuvent influencer la réponse du modèle à un prompt précis, sans altérer sa structure permanente. Cela revient à changer, brièvement, l’état interne du modèle au moment où il « pense ».

Une technique particulièrement révélatrice consiste à enregistrer les activations générées par un premier énoncé ; par exemple, une phrase contenant une information factuelle ; puis à réinjecter ces activations dans le traitement d’un second prompt (Activation Steering). Le modèle, dans ce cas, réagit comme s’il se souvenait d’un fait qu’on ne lui a pas fourni. Il transpose un état d’un contexte à un autre, sans en avoir conscience. Ce procédé permet d’étudier comment certaines notions sont représentées en interne, et dans quelle partie du réseau elles semblent se stabiliser. Autrement énoncé : quelles unités du modèle s’activent de manière cohérente lorsqu’un concept donné est traité, ce que les chercheurs appellent sa « localisation ».

Ces localisations restent fragiles. Même lorsqu’une information semble associée à un endroit précis du réseau, elle peut être altérée à distance. Une modification, ailleurs dans le modèle, suffit parfois à faire disparaître ou transformer ce que l’on pensait isolé. Le savoir n’est donc pas rangé dans un point fixe, mais réparti entre plusieurs zones, souvent entremêlées. Il ne s’ancre pas, il circule. Ce que le modèle « sait » résulte d’un équilibre entre des milliers d’interactions internes, qui peuvent changer sans signe apparent.

 Les modèles de langage possèdent des milliards de paramètres optimisés, ce qui rend leur logique interne très complexe et difficile à interpréter, à l'image d'un Rubik's Cube complété dont la méthode de résolution n'est pas apparente. © hilalabdullah / Shutterstock
Les modèles de langage possèdent des milliards de paramètres optimisés, ce qui rend leur logique interne très complexe et difficile à interpréter, à l'image d'un Rubik's Cube complété dont la méthode de résolution n'est pas apparente. © hilalabdullah / Shutterstock

Des raisonnements désordonnés, une intelligence sans méthode

La structure logique de ces modèles n’obéit à aucun schéma reproductible. Pour résoudre une tâche simple, deux formulations très proches peuvent activer des processus internes totalement différents. Il peut arriver que plusieurs ensembles de composants accomplissent exactement la même fonction, sans coordination apparente. Parfois encore, lorsqu’une section du réseau est désactivée, une autre reprend la main, comme si la machine redistribuait ses compétences en temps réel.

Un phénomène désigné par les chercheurs de « réparation émergente », qui n'a pas été prévu, mais qui parvient à surgir d'un système suffisamment vaste pour se réorganiser par lui-même. Un comportement surprenant, mais il n'est pas le seul à échapper à notre logique.

L’interprétation d’un mot, sa fonction grammaticale, sa relation avec d’autres éléments de la phrase ; autant d’opérations qui peuvent suivre des chemins arbitraires et non reproductibles.

Le paysage interne des modèles est donc très mouvant et même les évidences finissent par se dérober ; des régularités que l'on pensait établies s'effondrent dès qu'on tente de les isoler. Asma Ghandeharioun, chercheuse chez Google DeepMind, l’exprime ainsi : « Il y a tant de choses qui semblent évidemment vraies, mais quand on regarde de plus près, elles ne le sont tout simplement pas ».

Certes, le travail sur l'interprétabilité des modèles progresse, et certaines représentations sont mieux comprises. Martin Wattenberg lui-même reconnaît : « On avance, malgré tout. Nous sommes bien au-delà de ce que nous comprenions il y a cinq ans ».

Ces progrès n'ont pas encore permis de cerner, ce qui, dans ces modèles, donne lieu à ce que nous interprétons comme une forme d’intelligence. Le mot lui-même est piégé : il évoque un esprit, une intention, une compréhension du monde, mais rien de tout cela n’habite ces systèmes. Ce qu’ils produisent n’est pas pensé, mais calculé. Leur efficacité est réelle, parfois supérieure à la nôtre, mais elle reste sans fondement accessible.

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025
Les chatbots à intelligence artificielle sont de plus en plus utilisés en 2025. Ils répondent à des questions, exécutent des tâches et s'intègrent facilement à divers usages. Qu'il s'agisse d'assistants personnels ou de solutions professionnelles, ces outils deviennent indispensables. Nous vous avons séléctionné les meilleurs chatbots IA.

C’est là qu'est posé le voile qui les recouvre : pas sur leurs capacités ; plutôt sur notre incapacité à comprendre comment elles naissent. Les modèles réussissent, souvent brillamment, mais les raisons de leur succès nous échappent. Ils atteignent des résultats que nous savons reconnaître comme justes, sans que nous sachions comment ils y sont parvenus. Nous avons fabriqué des systèmes dont les résultats nous dépassent, non parce qu’ils nous échappent en nature, mais parce qu’ils s’imposent sans justification. Un savoir sans sujet, une pensée sans pensée ; une intelligence, si l'on veut, mais privée de sens.