Microsoft teste 52 scénarios pro sur les agents IA, les résultats sont accablants

Confier un document de travail à une IA pendant vingt échanges, c'est accepter qu'elle en perde un quart. Et c'est Microsoft, pas un concurrent, qui le démontre.

OpenClaw © Tada Images / Shutterstock

Le scénario, vous le connaissez probablement si vous utilisez l'IA de manière sérieuse. Vous demandez à un assistant IA de corriger un tableau, puis de modifier un paragraphe, puis de reformater une section. Au bout de quelques allers-retours, quelque chose a disparu. Un chiffre a muté, un bloc entier s'est volatilisé, et personne ne sait exactement quand. Jusqu'ici, c'était un ressenti partagé sur les forums. Microsoft Research vient d'en fournir la preuve chiffrée.

DELEGATE-52 : le benchmark qui n'épargne personne

L'étude, signée Philippe Laban, Tobias Schnabel et Jennifer Neville, s'appelle DELEGATE-52. Le principe est simple (le résultat, beaucoup moins). Les chercheurs ont construit 310 environnements de travail couvrant 52 domaines professionnels. La liste va du code Python à la comptabilité, en passant par la notation musicale, la cristallographie ou les états financiers.

Chaque environnement pèse environ 15 000 tokens et contient cinq à dix tâches d'édition complexes. Le protocole repose sur un aller-retour : le modèle modifie un document, puis doit annuler sa propre modification. Dix cycles de ce type, soit vingt interactions. Si l'IA fait correctement son travail, le document revient à l'identique. Dix-neuf modèles ont été soumis à l'exercice, dont les trois poids lourds du moment : Gemini 3.1 Pro, Claude 4.6 Opus et GPT-5.4. Le jeu de données est public (GitHub et Hugging Face), ce qui permet à chacun de vérifier.

Même les meilleurs perdent le fil (et pas qu'un peu)

Passons au résultat. Après vingt interactions, les modèles les plus performants corrompent en moyenne 25 % du contenu du document. Ce chiffre ne distingue pas un modèle premium d'un modèle open source bon marché. Les poids lourds retardent l'apparition des erreurs, mais ne les évitent pas. Pour Microsoft, dont Copilot peine déjà à convaincre avec 3,3 % d'adoption payante, publier ce genre de résultats a le mérite de l'honnêteté.

À découvrir

J'ai laissé une IA bosser pendant que je dormais : le guide ultime pour installer OpenClaw, votre employé 24/7

24 mars 2026 à 10h12

Décryptage

Deux conclusions complémentaires méritent l'attention. D'une part, la performance d'un modèle après deux interactions ne prédit pas du tout son comportement après vingt. Un modèle brillant sur un aller-retour peut s'effondrer au dixième (le genre de détail que les démos marketing oublient de mentionner). D'autre part, enrober le modèle dans un agent autonome comme Copilot Cowork n'améliore rien. La corruption vient du modèle lui-même, pas de son cadre d'exécution.

DELEGATE-52 n'est d'ailleurs pas un cas isolé. D'autres benchmarks récents (YC-Bench, UltraHorizon, Terminal-Bench) convergent vers le même diagnostic : les agents IA perdent le fil au-delà de quelques dizaines d'échanges. L'étude de Microsoft s'est différenciée en balayant large (52 domaines, pas un seul) et par la transparence de son protocole.

Les domaines où l'IA s'en tire le mieux obéissent à des règles strictes : Python, SQL, bases de données. Ceux où elle dérape mélangent format, sémantique et conventions humaines : états financiers, partitions musicales, patrons textiles. Le genre de documents qu'on manipule au quotidien dans un bureau, en somme. Pour les millions de salariés qui utilisent Copilot, ChatGPT ou Claude au travail, le message est difficile à ignorer : sur une tâche courte, l'IA reste fiable. Sur une chaîne d'éditions longue, la supervision humaine n'est pas une option. Meta et Cloudflare vont l'apprendre de la mauvaise manière.