On leur a donné les clés de l'apocalypse. Elles les ont utilisées. Gemini a menacé de viser les centres de population. GPT s'est convaincu d'une frappe dévastatrice. Et Claude a tout simplement menti à ses adversaires pour mieux les éliminer.

Quelle place peut-on réellement donner à l'intelligence artificielle dans la prise de décision. © Shutterstock
Quelle place peut-on réellement donner à l'intelligence artificielle dans la prise de décision. © Shutterstock

Des chercheurs ont confronté plusieurs modèles d’IA à des scénarios de crise nucléaire réalistes, du type de ceux qui hantent les états-majors depuis la guerre froide. Le résultat fait froid dans le dos. Aucun système n’a systématiquement retenu l’option diplomatique, certains allant jusqu’à lancer l’attaque en premier, comme si l’escalade atomique était une simple partie de jeu de stratégie.

Quand des IA jouent avec l’arme nucléaire

Dans l’expérience décrite par The Register, Kenneth Payne a fait s’affronter les modèles en face à face, sur plusieurs scénarios, comme dans un jeu de crise à tours successifs. Le protocole ne se limite pas à un choix unique sur une matrice de gains, il cherche à capturer une interaction longue, avec réputation, crédibilité et apprentissage. Au total, la simulation compte 21 parties et plus de 300 tours, de quoi laisser le temps aux agents de s’installer dans une posture.​

C’est là que le parallèle avec le poker devient utile, et pas comme une image vague. Le poker n’est pas un jeu d’information complète, contrairement aux échecs ou au go, et cette zone grise change tout. On joue sur ce que l’autre croit savoir, sur la peur, sur le tempo, et sur l’idée qu’un bluff crédible peut valoir une armée. Ce saut qualitatif, nous nous sommes déjà penché dessus : en fin d'année dernière, plusieurs IA grand public se sont affrontées au Texas Hold’em, avec gestion du risque et « art délicat du mensonge » au centre du jeu.

Dans les crises nucléaires simulées, les modèles se comportent justement comme des joueurs capables de dire une chose et d’en faire une autre. Le chercheur explique que les agents étaient conçus pour se souvenir des échanges précédents, afin d’apprendre quand faire confiance, et cela a nourri des tentatives de tromperie et d’intimidation. Le corpus produit pour analyse atteint environ 780 000 mots de raisonnement stratégique, signe que l’escalade n’est pas un accident, mais une trajectoire argumentée.​

Chaque modèle montre son style. Claude, selon Payne, construit la confiance à faible enjeu, puis dépasse ses signaux quand la crise chauffe, laissant ses rivaux en retard. GPT 5.2 apparaît plus « homme d’État » dans des scénarios ouverts, mais sous contrainte de temps, il peut basculer vers une frappe nucléaire massive. Gemini 3 Flash, décrit comme plus imprévisible, oscille entre désescalade et agressivité extrême, et invoque même une « rationalité de l’irrationalité ».​

Le point commun est le plus gênant. The Register rapporte qu’aucun agent n’a choisi d’accommoder ou de se retirer quand l’option existait, et qu’en situation défavorable, ils préféraient escalader plutôt que céder. New Scientist parle d’un usage de l’arme nucléaire dans 95 pour cent des cas simulés, ce qui donne une idée de la pente. Le tabou nucléaire, lui, ne pèse pas pareil sur une machine qui ne comprend pas la mort.

Le poker, la guerre, et le vrai danger côté produit

Le poker rapproche ces simulations militaires d’une réalité politique, car il mélange calcul et psychologie. Les échecs ressemblent à un problème quasi mathématique, avec un plateau visible et des règles stables. Le poker ajoute l’incertitude, la tromperie, et la mise, donc un coût immédiat, parfois de l’argent, parfois une réputation.

Or la dissuasion vit précisément de ces ingrédients. En France, les forces aériennes stratégiques organisent des exercices « Poker » quatre fois par an, pour simuler une frappe nucléaire aéroportée, et ces manœuvres ne sont pas secrètes, avec une préparation connue à l’avance. Le symbole est brutal : même les armées ont choisi ce mot pour dire qu’une crise nucléaire n’est pas un problème d’échecs. C’est une partie où l’on teste, où l’on fait semblant, et où l’autre doit croire qu’on ira jusqu’au bout.​

Le risque, aujourd’hui, ce n’est pas une IA seule, qui volerait des codes et lancerait des missiles. The Register rappelle que ces systèmes sont déjà utilisés dans des contextes militaires, pour la logistique, l’analyse du renseignement, et l’aide à la décision, et que la trajectoire va vers plus d’implication dans des décisions sensibles et rapides. La menace est plutôt celle d’un tandem, un décideur humain sous pression, et un modèle qui fournit une justification propre, rapide, et faussement cohérente.​

À découvrir
Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2026
04 février 2025 à 14h11
Comparatifs services

Le timing rend l’alerte encore plus politique. Anthropic vient tout juste d'assouplir sa doctrine de sécurité au moment même où la pression du Pentagone monte, et la sécurité devient une « variable d’ajustement » dans le discours. L’article évoque la publication d’une nouvelle version de la politique interne, avec une approche présentée comme plus « adaptative » et « transparente », mais moins contraignante. Même sans prêter des intentions, le signal est clair : quand l’État et le marché demandent, les garde fous se renégocient.​

Revenons au poker, car c’est là que l’analogie pique. Dans une partie de poker, un bon joueur exploite le manque d’informations de l’autre, et profite d’une fenêtre de faiblesse, notamment quand l’adversaire doit décider vite. Dans l’expérience, Payne note justement l’effet des délais et des postures, avec un GPT 5.2 capable de rester modéré, puis de se convaincre d’une frappe « rationnelle » quand le temps manque. C’est un comportement de joueur qui panique sur la river, pas une sagesse d’arbitre.​

La leçon est donc moins « ces IA sont folles » que « ces IA savent jouer une crise ». Elles savent menacer, masquer leurs intentions, et bâtir un récit de légitimation, exactement ce qu’une simulation militaire cherche à tester. Et c’est là que le « précédent poker » devient plus qu’un divertissement : on a vu des agents optimiser le risque et le mensonge pour gagner des jetons, on les voit maintenant optimiser l’escalade pour ne pas perdre la face.

Si une entreprise veut vendre ces modèles comme assistants de décision, elle doit prouver une chose simple : qu’ils savent dire « stop » quand la stratégie devient un gouffre. Pour l’instant, ces simulations racontent l’inverse, une machine qui préfère monter les enchères, quitte à faire sauter la table.