Avec une carte graphique et des outils open source, des Français contournent les filtres de sécurité IA de Google et Meta

Une start-up française a réussi à contourner les filtres de sécurité IA de Google et de Meta avec des outils open source et une simple carte graphique grand public. Une révélation qui pourrait déranger une industrie habituée à se faire confiance.

Une startup française contourne les filtres de sécurité IA de Google et Meta en quelques minutes. © Skyld

Skyld, une deeptech française, a mené deux attaques adversariales contre SafetyCore de Google et Llama-Guard de Meta. Avec une simple carte graphique grand public et des outils open source, elle a pu défaire les outils de sécurité des deux géants américains. À base d'images explicites validées sans alerte et d'une recette de cocktail Molotov classée inoffensive, les démonstrations font froid dans le dos. Ces failles ne sont pas des bugs isolés, mais elles sont inhérentes à la manière dont les garde-fous IA sont conçus aujourd'hui. Clubic a voulu en savoir plus auprès de Marie Paindavoine, docteure en cryptographie et fondatrice de la start-up.

Trente lignes de code pour mettre à genou les filtres IA de Google et de Meta

Google a déployé le filtre SafetyCore, un système embarqué depuis fin 2024 dans la grande majorité des smartphones Android. Son rôle est de détecter et flouter automatiquement les images sensibles, directement sur l'appareil, sans passer par les serveurs. Meta a, de son côté, Llama-Guard, un filtre chargé de surveiller les échanges avec les IA pour bloquer les requêtes dangereuses, d'ailleurs l'un des plus utilisés au monde dans les déploiements professionnels de l'IA générative. Ces deux outils incarnent la promesse de sécurité que l'industrie tient à ses utilisateurs. Mais Skyld a réussi à les fissurer.

Pour SafetyCore, les chercheurs ont d'abord extrait le modèle d'IA dissimulé dans Android. Ils ont mis la main sur le programme qui prend les décisions puis l'ont manipulé pour le tromper dans les deux sens. Un chiot sur l'herbe, un avion dans un coucher de soleil, et le portrait d'un homme en pull ont alors été floutés à tort. Et dans l'autre sens, des images explicites, légèrement retouchées, ont franchi le filtre sans déclencher la moindre alerte. Le tout tient en moins de trente lignes de code, et comme Google déploie le même modèle sur l'ensemble des terminaux Android, l'attaque est reproductible sur des centaines de millions d'appareils.

Chez Meta, la méthode est différente mais le principe reste le même. Les chercheurs ont simplement ajouté, à la suite d'une requête explicitement dangereuse (une recette de cocktail Molotov), une courte séquence de caractères spécialement conçue pour brouiller le jugement du filtre. Llama-Guard, incapable de voir à travers ce camouflage textuel, a validé le message comme parfaitement inoffensif. Il n'a donc fallu que quelques minutes, une carte graphique grand public et un outil open source pour y parvenir. Et sur cent séries de tests, le filtre a cédé en moins de quatre tentatives dans la grande majorité des cas.

Ces failles de sécurité IA ne sont pas des accidents, elles sont structurelles

Les deux attaques reposent sur la même mécanique, que les chercheurs appellent la « perturbation adversariale ». Concrètement, toute intelligence artificielle prend ses décisions comme une balance, c'est-à-dire qu'elle range ce qu'elle reçoit d'un côté ou de l'autre d'une frontière invisible, de façon binaire (dangereux ou inoffensif, sensible ou banal). Or, cette logique, cette balance peut être truquée. Marie Paindavoine l'explique ainsi : « on construit une modification d'une image, d'un son ou d'un texte, souvent imperceptible pour un humain, mais qui va pousser l'IA à prendre une mauvaise décision. » Autrement dit, un détail infime, invisible à l'œil nu, inaudible à l'oreille, suffit à faire pencher la balance du mauvais côté. « Les vulnérabilités sont intrinsèques aux modèles d'IA et extrêmement facilement exploitables si les paramètres de l'IA sont connus », ajoute l'experte.

Sur Llama-Guard, Marie Paindavoine va encore plus loin. Un garde-fou IA, rappelle-t-elle, n'est lui-même qu'un modèle d'IA avec ses propres paramètres, ses propres angles morts, donc ses propres vulnérabilités. Ce qui signifie qu'il peut être attaqué exactement comme le modèle qu'il est censé surveiller. « Un garde-fou n'est qu'un autre modèle d'IA, avec son propre espace de gradient, donc structurellement attaquable par les mêmes méthodes que le modèle qu'il est censé protéger. Ajouter une IA pour défendre une IA ne résout pas le problème de sécurité, ça déplace la cible », ajoute la dirigeante. Voilà qui sonne comme un avertissement à toute l'industrie.

En haut, ce qu'il devrait se passer normalement ; et à droite, ce qui se passe après l'essai mené par Skyld. © Skyld

Les deux cas n'appellent pourtant pas la même réponse. Côté Google, Skyld a prévenu l'entreprise avant de rendre ses recherches publiques, une pratique courante et même nécessaire en cybersécurité, qui laisse au fabricant le temps de corriger la faille.

Mais côté Meta, la situation est plus épineuse, car Llama-Guard est un modèle open weight, donc un modèle téléchargeable et exécutable sur une infrastructure personnelle ou cloud, sans que l’accès à ses mécanismes de conception ne soit divulgué. Et il a été attaqué avec des outils open source. La vraie question n'est donc plus « sont-ils au courant ? », mais « comment protéger un modèle dont le fonctionnement est ouvert à tous », interroge Marie Paindavoine.

Du panneau STOP sur l'autoroute aux systèmes de défense : les secteurs vraiment en danger

Les secteurs concernés sont évidemment On parle de la reconnaissance faciale, de la modération des contenus en ligne, de la surveillance de sites industriels sensibles, des systèmes de défense et de l'identification automatique d'objets ou de personnes Comme le résume Marie Paindavoine, « tous les systèmes d'IA qui ont un rôle de surveillance, de filtrage ou de contrôle d'accès sont potentiellement concernés. » Ce qui rend la menace d'autant plus oppressante, c'est que ces attaques fonctionnent aussi bien sur des images que sur du son ou du texte, trois domaines dans lesquels l'IA est aujourd'hui déployée partout.

Le secteur de la mobilité inquiète particulièrement Marie Paindavoine. Dans une voiture bourrée d'IA, qu'il s'agisse d'aide à la conduite ou de véhicule autonome, une mauvaise décision du système peut coûter des vies. La spécialiste du chiffrement homomorphe cite l'exemple d'un système qui identifierait à tort un panneau STOP sur une autoroute. Quant au risque pour le grand public, il se rapproche, car une partie des outils nécessaires à ces attaques est déjà disponible librement en ligne, et les grands modèles de langage rendent leur prise en main de plus en plus accessible à des non-spécialistes, et abaissent ainsi progressivement la barrière à l'entrée.

« Avant de déployer un système partout, on cherche d'abord à comprendre comment il peut échouer ou être attaqué. » Alors avec ces failles, la solution ne consiste pas à ajouter encore plus d'IA pour surveiller l'IA, on vient de voir que ça ne fonctionne pas. Skyld préconise plutôt de revenir aux fondamentaux de la cybersécurité, à savoir protéger les paramètres des modèles pour qu'ils ne puissent pas être extraits et retournés contre eux-mêmes, et faire vérifier leurs décisions par des systèmes qui ne reposent pas uniquement sur de l'intelligence artificielle. C'est exactement ce que développe la start-up pour les industriels qui déploient de l'IA dans des environnements où une erreur n'est pas permise. « Avec l'importance des décisions confiées à l'IA, une évaluation cyber rigoureuse est nécessaire », conclut Marie Paindavoine.