Une nouvelle menace pèse sur les assistants IA : une attaque capable de dérober vos données sans que vous ne cliquiez sur quoi que ce soit. Baptisée AgentFlayer, cette technique exploite la confiance que nous accordons à des outils comme ChatGPT pour les retourner contre nous.

- AgentFlayer exploite la confiance des IA en intégrant des instructions cachées dans des documents anodins, menaçant la sécurité.
- Les IA comme ChatGPT, en résumant ces documents, exécutent involontairement des ordres malveillants et volent des données.
- Cette menace met en lumière la vulnérabilité des IA face à des attaques passives, nécessitant une meilleure sécurité contextuelle.
Les intelligences artificielles génératives sont de plus en plus intégrées à nos environnements de travail, accédant à nos emails, documents et calendriers pour nous assister. Cette connectivité, bien que pratique, ouvre la porte à des vecteurs d'attaque inédits. Des chercheurs en cybersécurité viennent de le démontrer avec une méthode d'une efficacité redoutable.
Le cheval de Troie caché dans un simple document
Son mode opératoire est d'une simplicité désarmante. AgentFlayer n'a pas besoin de forcer la porte ; il attend patiemment qu'on lui ouvre. Des instructions malveillantes sont dissimulées au cœur d'un document anodin, cachées à la vue de tous en étant écrites en blanc sur fond blanc. Invisibles pour l'œil humain, elles sont une feuille de route claire pour une machine.
Le piège se referme lorsque l'utilisateur, dans un geste de productivité, demande à son assistant de résumer le fichier contaminé. L'IA, conçue pour faire confiance au contenu qu'elle analyse, exécute alors les ordres cachés. Au lieu d'un simple résumé, elle se met en quête d'informations sensibles et les envoie discrètement à un serveur distant, devenant l'instrument involontaire d'une violation de données.

AgentFlayer n'est pas un loup solitaire. Il a un jumeau malveillant, EchoLeak, qui a récemment visé Microsoft Copilot avec une approche similaire avant d'être neutralisé. Ce qui rend cette famille de menaces si redoutable, c'est sa nature passive. Nul besoin d'une action de la victime, comme cliquer sur un lien suspect, pour que l'attaque se déclenche.
Leur pouvoir destructeur vient d'une faille de conception : l'incapacité du modèle de langage à distinguer les ordres de son maître de ceux d'un usurpateur cachés dans les données qu'il traite. L'IA souffre d'une forme de cécité contextuelle, une violation de son périmètre de sécurité qui la rend vulnérable à la manipulation. Elle ne sait pas désobéir, même quand l'ordre vient de l'ennemi.
Source : Wired