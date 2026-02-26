Dans l’expérience décrite par The Register, Kenneth Payne a fait s’affronter les modèles en face à face, sur plusieurs scénarios, comme dans un jeu de crise à tours successifs. Le protocole ne se limite pas à un choix unique sur une matrice de gains, il cherche à capturer une interaction longue, avec réputation, crédibilité et apprentissage. Au total, la simulation compte 21 parties et plus de 300 tours, de quoi laisser le temps aux agents de s’installer dans une posture.​

C’est là que le parallèle avec le poker devient utile, et pas comme une image vague. Le poker n’est pas un jeu d’information complète, contrairement aux échecs ou au go, et cette zone grise change tout. On joue sur ce que l’autre croit savoir, sur la peur, sur le tempo, et sur l’idée qu’un bluff crédible peut valoir une armée. Ce saut qualitatif, nous nous sommes déjà penché dessus : en fin d'année dernière, plusieurs IA grand public se sont affrontées au Texas Hold’em, avec gestion du risque et « art délicat du mensonge » au centre du jeu.

Dans les crises nucléaires simulées, les modèles se comportent justement comme des joueurs capables de dire une chose et d’en faire une autre. Le chercheur explique que les agents étaient conçus pour se souvenir des échanges précédents, afin d’apprendre quand faire confiance, et cela a nourri des tentatives de tromperie et d’intimidation. Le corpus produit pour analyse atteint environ 780 000 mots de raisonnement stratégique, signe que l’escalade n’est pas un accident, mais une trajectoire argumentée.​