Microsoft montre qu’elle n’a pas besoin de Claude Mythos : ses agents IA de cybersecurité fonctionnent avec tous les modèles

Microsoft fait partie du gratin de la tech qui a le droit d'utiliser Claude Mythos. Cela ne l'a pas empêché de construire un système de cybersécurité IA concurrent, et qui ne dépend d'aucun des gros modèles pour fonctionner.

Le nouveau système multi-agents de Microsoft a trouvé 16 failles dans Windows, dont 4 critiques, en combinant des modèles IA de différentes générations. © Microsoft

En avril 2026, Anthropic lançait Project Glasswing et son modèle Claude Mythos, taillé pour la chasse aux failles de sécurité. Quelques semaines plus tard, OpenAI dévoilait Daybreak, sa propre initiative cyber basée sur GPT-5.5. Les deux approches partagent un point commun : elles reposent sur un modèle unique. Microsoft a choisi le chemin inverse. Le 12 mai, l'équipe dédiée à la cybersécurité agentique de l'éditeur a publié les résultats de MDASH (Multi-Model Agentic Scanning Harness). Le principe : orchestrer plus de 100 agents IA spécialisés à travers un ensemble de modèles « frontière » et de modèles distillés, sans dépendance à un fournisseur unique. Comme le résume Taesoo Kim, vice-président sécurité agentique chez Microsoft : « Le modèle est une entrée parmi d'autres. Le système est le produit. »

16 failles, 4 critiques, zéro faux positif

MDASH a été lâché sur la pile réseau et d'authentification de Windows, l'une des surfaces d'attaque les plus scrutées au monde. Résultat : 16 vulnérabilités inédites intégrées au Patch Tuesday de mai 2026, dont 10 en mode noyau et 6 en mode utilisateur. La majorité sont exploitables depuis le réseau, sans authentification préalable. Quatre d'entre elles sont classées critiques : un double-free dans le service IKEv2 (CVE-2026-33824, score CVSS 9.8), un use-after-free dans la pile TCP/IP IPv4 (CVE-2026-33827, CVSS 8.1), et deux failles dans Netlogon et le client DNS Windows, toutes deux notées 9.8. Les deux premières sont jugées par Microsoft « plus susceptibles d'être exploitées ».

Ces failles avaient résisté à des années d'audit humain et à des millions de passages de fuzzers. Le double-free dans IKEv2, par exemple, ne devient visible qu'en comparant un site de code mal géré avec un site correctement implémenté ailleurs dans le même fichier source. Ce type de raisonnement par contraste (repérer l'absence d'un garde-fou en s'appuyant sur sa présence ailleurs) est précisément ce que les scanners classiques ne savent pas faire, et ce que les agents « débatteurs » de MDASH sont conçus pour automatiser.

Le fonctionnement du système rappelle davantage un cabinet d'audit qu'un scanner classique. Des agents « auditeurs » parcourent le code source et signalent les zones suspectes. Des agents « débatteurs » challengent chaque signalement (un modèle léger contredit un modèle lourd, et inversement). Un dernier étage d'agents « prouveurs » tente de construire un exploit fonctionnel avant qu'un ingénieur humain ne prenne le relais. Sur un driver de test privé contenant 21 vulnérabilités plantées, MDASH a trouvé les 21 sans aucun faux positif. Sur cinq ans de failles confirmées par le MSRC dans le composant clfs.sys, le système affiche 96 % de rappel. Sur tcpip.sys, 100 %.

Microsoft joue sur tous les tableaux

Sur le benchmark public CyberGym (UC Berkeley, 1 507 tâches de reproduction de vulnérabilités sur 188 projets open source), MDASH obtient 88,45 %, soit environ 5 points devant Claude Mythos Preview (83,1 %) et GPT-5.5 (81,8 %). L'écart est significatif, mais le plus intéressant se situe ailleurs. Microsoft est simultanément partenaire d'OpenAI, membre fondateur de Project Glasswing (le programme d'Anthropic qui déploie Mythos auprès de 40 organisations) et désormais opérateur de son propre système concurrent.

L'équipe ACS qui a conçu MDASH n'est pas née dans un laboratoire Microsoft. Plusieurs de ses membres viennent de Team Atlanta, lauréate des 29,5 millions de dollars du DARPA AI Cyber Challenge en 2024. Cette équipe avait construit un système autonome capable de trouver et de patcher des bugs réels dans des projets open source. Le passage de la recherche académique à la production industrielle est le vrai sujet de MDASH : le système entrera en préversion privée pour les entreprises dès juin 2026.

Microsoft n'est pas non plus pionnière sur le créneau de la cybersécurité multi-modèle. En avril, la start-up AISLE avait déjà reproduit les résultats phares de Mythos avec des modèles open source à 3-5 milliards de paramètres. Coût de l'opération : 0,10 centimes le million de tokens, là où Anthropic en facture 240 fois plus. MDASH enfonce le clou : ce qui fait la différence, c'est l'architecture autour du modèle, pas sa puissance brute.

Pour l'Europe, c'est paradoxalement une bonne nouvelle. Anthropic réserve Mythos à une poignée de partenaires américains, OpenAI verrouille Daybreak derrière un programme d'accès vérifié. Mais les obligations du Cyber Resilience Act et de NIS2 n'attendront pas. Avec des modèles ouverts (Mistral, Llama, Qwen) et une ingénierie d'orchestration solide, rien n'empêche un acteur européen de construire un pipeline compétitif sans dépendre de modèles fermés auxquels il n'a de toute façon pas accès.