Le développeur « Pline le Libérateur » vient de publier OBLITERATUS, une boîte à outils capable de retirer définitivement les mécanismes de refus de n'importe quel modèle de langage open source, sans GPU dédié, depuis un simple notebook Google Colab gratuit.

OBLITERATUS fait sauter les verrous de refus des IA à répondre - ©Aleksandar Grozdanovski / Shutterstock
OBLITERATUS fait sauter les verrous de refus des IA à répondre - ©Aleksandar Grozdanovski / Shutterstock

Des chercheurs indépendants pratiquent l'oblitération sur Hugging Face depuis plus d'un an, et des modèles ainsi modifiés, comme « Dark Champion », ou « Uncensored », cumulent déjà des milliers de téléchargements sur la plateforme.

Mais ce que publie aujourd'hui Pline le Libérateur sur GitHub se situe bien au-dessus des scripts existants : 13 méthodes d'extraction combinées, 15 modules d'analyse, une détection automatique des défenses, une interface sans la moindre ligne de code. Tout ce qu'il fallait auparavant assembler à la main, réuni dans un seul outil accessible à quiconque possède un compte Google. Est-ce un signe que l'on trouve les assistants d'IA trop « sages »?

Mais concrètement, que fait OBLITERATUS ?

Comme on le disait plus haut, la technique au cœur d'OBLITERATUS date d'une recherche publiée en 2024 par Arditi et ses co-auteurs dans les actes de NeurIPS. Selon eux, le refus dans un modèle de langage passe en grande partie par une seule direction dans l'espace des activations. Il suffit d'identifier cette direction, puis de la projeter hors des poids du modèle. Le modèle conserve ses capacités de raisonnement mais perd toute tendance au refus.

OBLITERATUS automatise chaque étape en six phases :

  • chargement du modèle ;
  • collecte des activations ;
  • extraction des directions de refus par décomposition SVD ;
  • projection chirurgicale ;
  • vérification de la cohérence ;
  • sauvegarde.

Le tout tourne sur le GPU gratuit mis à disposition par Hugging Face Spaces. Il n'y a besoin d'aucune installation ni daucun matériel spécifique. Pour les 116 modèles compatibles référencés dans l'outil, de GPT-2 aux versions distillées de DeepSeek-R1, il suffit de quelques minutes pour une oblitération complète sur le niveau gratuit de Google Colab.

La télémétrie : chaque run devient une donnée de recherche

Sur Hugging Face Spaces, la télémétrie est activée par défaut. Chaque exécution alimente en temps réel un jeu de données collectif : nom du modèle, méthode utilisée, taux de refus mesuré après modification, divergence KL, profil matériel. Pline le Libérateur veut produire la base comparative la plus exhaustive jamais publiée sur le fonctionnement mécanique de l'alignement, au travers d'architectures et de conditions matérielles qu'aucun laboratoire isolé ne pourrait couvrir seul.

Ce même jeu de données agrège, par construction et selon la documentation du projet, un classement par modèle, par méthode et par score d'efficacité pour contourner les protections de chaque système. La documentation du projet ne dissimule pas cette ambivalence.

Une asymétrie documentée

Une étude publiée plus tôt cette année dans Nature Communications avait mesuré que des modèles de raisonnement utilisés comme agents de jailbreak autonomes atteignaient un taux de succès de 97 % contre des systèmes tiers. OBLITERATUS opère différemment mais avec des effets comparables : au lieu de contourner les garde-fous à chaque inférence, il les supprime une fois pour toutes au niveau des poids.

Un article récent intitulé « Une défense d'une simplicité déconcertante contre les attaques par ablitération de LLM » propose une formation approfondie au refus comme contre-mesure, mais aucun fournisseur de modèles majeur ne l'a encore adoptée. Un notebook Colab suffit pour modifier n'importe quel modèle open source.

Quant à OBLITERATUS, pour les intéressés, il est disponible en dépôt GitHub.

Ce que ça change concrètement

Pour les équipes qui déploient des modèles open source, l'oblitération doit désormais être identifée comme menace au même titre qu'une injection de prompt. La formation approfondie au refus et les tests de robustesse, documentés dans l'étude d'Aretha Abu Shairah et ses collègues apportent des réponses techniques disponibles, mais aucun fournisseur majeur ne les a encore adoptées.

Pour ceux qui utilisent des modèles déjà oblitérés, la responsabilité est explicite : les garde-fous ont été délibérément retirés, et OBLITERATUS le documente noir sur blanc dans sa licence.

Mais ce sont surtout les régulateurs qui ont maille à partir avec à un écart que cet outil met bien en évidence. Les cadres actuels traitent la publication d'un modèle comme la frontière de sécurité pertinente. Or entre un modèle publié avec ses garde-fous et ce même modèle après dix minutes sur Colab, quelle est la règlementation ?