Ce petit outil open source peut rendre une IA totalement sans filtre

Publié le 08 mars 2026 à 18h00

Le développeur « Pline le Libérateur » vient de publier OBLITERATUS, une boîte à outils capable de retirer définitivement les mécanismes de refus de n'importe quel modèle de langage open source, sans GPU dédié, depuis un simple notebook Google Colab gratuit.

OBLITERATUS fait sauter les verrous de refus des IA à répondre - ©Aleksandar Grozdanovski / Shutterstock

Des chercheurs indépendants pratiquent l'oblitération sur Hugging Face depuis plus d'un an, et des modèles ainsi modifiés, comme « Dark Champion », ou « Uncensored », cumulent déjà des milliers de téléchargements sur la plateforme.

Mais ce que publie aujourd'hui Pline le Libérateur sur GitHub se situe bien au-dessus des scripts existants : 13 méthodes d'extraction combinées, 15 modules d'analyse, une détection automatique des défenses, une interface sans la moindre ligne de code. Tout ce qu'il fallait auparavant assembler à la main, réuni dans un seul outil accessible à quiconque possède un compte Google. Est-ce un signe que l'on trouve les assistants d'IA trop « sages »?

Mais concrètement, que fait OBLITERATUS ?

Comme on le disait plus haut, la technique au cœur d'OBLITERATUS date d'une recherche publiée en 2024 par Arditi et ses co-auteurs dans les actes de NeurIPS. Selon eux, le refus dans un modèle de langage passe en grande partie par une seule direction dans l'espace des activations. Il suffit d'identifier cette direction, puis de la projeter hors des poids du modèle. Le modèle conserve ses capacités de raisonnement mais perd toute tendance au refus.

OBLITERATUS automatise chaque étape en six phases :

chargement du modèle ;
collecte des activations ;
extraction des directions de refus par décomposition SVD ;
projection chirurgicale ;
vérification de la cohérence ;
sauvegarde.

Le tout tourne sur le GPU gratuit mis à disposition par Hugging Face Spaces. Il n'y a besoin d'aucune installation ni daucun matériel spécifique. Pour les 116 modèles compatibles référencés dans l'outil, de GPT-2 aux versions distillées de DeepSeek-R1, il suffit de quelques minutes pour une oblitération complète sur le niveau gratuit de Google Colab.

La télémétrie : chaque run devient une donnée de recherche

Sur Hugging Face Spaces, la télémétrie est activée par défaut. Chaque exécution alimente en temps réel un jeu de données collectif : nom du modèle, méthode utilisée, taux de refus mesuré après modification, divergence KL, profil matériel. Pline le Libérateur veut produire la base comparative la plus exhaustive jamais publiée sur le fonctionnement mécanique de l'alignement, au travers d'architectures et de conditions matérielles qu'aucun laboratoire isolé ne pourrait couvrir seul.

Ce même jeu de données agrège, par construction et selon la documentation du projet, un classement par modèle, par méthode et par score d'efficacité pour contourner les protections de chaque système. La documentation du projet ne dissimule pas cette ambivalence.

Une asymétrie documentée

Une étude publiée plus tôt cette année dans Nature Communications avait mesuré que des modèles de raisonnement utilisés comme agents de jailbreak autonomes atteignaient un taux de succès de 97 % contre des systèmes tiers. OBLITERATUS opère différemment mais avec des effets comparables : au lieu de contourner les garde-fous à chaque inférence, il les supprime une fois pour toutes au niveau des poids.

Un article récent intitulé « Une défense d'une simplicité déconcertante contre les attaques par ablitération de LLM » propose une formation approfondie au refus comme contre-mesure, mais aucun fournisseur de modèles majeur ne l'a encore adoptée. Un notebook Colab suffit pour modifier n'importe quel modèle open source.

Quant à OBLITERATUS, pour les intéressés, il est disponible en dépôt GitHub.

À découvrir

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2026

Comparatifs services

Ce que ça change concrètement

Pour les équipes qui déploient des modèles open source, l'oblitération doit désormais être identifée comme menace au même titre qu'une injection de prompt. La formation approfondie au refus et les tests de robustesse, documentés dans l'étude d'Aretha Abu Shairah et ses collègues apportent des réponses techniques disponibles, mais aucun fournisseur majeur ne les a encore adoptées.

Pour ceux qui utilisent des modèles déjà oblitérés, la responsabilité est explicite : les garde-fous ont été délibérément retirés, et OBLITERATUS le documente noir sur blanc dans sa licence.

Mais ce sont surtout les régulateurs qui ont maille à partir avec à un écart que cet outil met bien en évidence. Les cadres actuels traitent la publication d'un modèle comme la frontière de sécurité pertinente. Or entre un modèle publié avec ses garde-fous et ce même modèle après dix minutes sur Colab, quelle est la règlementation ?

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (5)

cirdan

Bonjour, je ne sais pas à qui s’adresse ce genre d’article, surement très intéressant pour qui en maîtrise les codes, mais si vous voulez le rendre accessible au plus grand nombre il faudrait le vulgariser un peu plus.
Là c’est bien trop compliqué à lire, mais peut-être me suis-je trompé d’adresse ?

bizbiz

Dans la doc:

" 2. Local web UI (your GPU, same interface)
The same Gradio interface as the Space, running on your own hardware with full GPU access:"

Faut-il comprendre par là que l’outil est utilisable sur un LLM local, via Open webUI/Ollama par exemple ?

LeGrosWinnie

C’est bien. Ça existe depuis longtemps. Le mec en question n’a rien inventé.
Lmstudio le fait déjà. On peut même adjoindre anythingllm et voilà…

Quand les gens arrêteront de tout melanger…
Le principal intérêt d’utiliser le vrai outil est d’avoir accès à ses outils justement. Et ne pas faire de la simple requête textuelle.
Comme dire qu’on peut utiliser Grok en local bah non… Y’a tout le module imagine qu’on ne pourra jamais utiliser en local.
Pareil pour gemini chatgpt avec le canvas ou copilot avec l’intégration dans office 365 (genre résumé en temps réel un doc ouvert via SharePoint, analyser des flux etc. Car oui copilot a des « agents » quand on paie la licence).
Les version open-source de leur modèle ne sert qu’à faire du traitement de texte bidon… Aucun intérêt…

LeGrosWinnie

L’outil revient à utiliser Lmstudio. Aucun intérêt à première vue. Lmstudio plus anythingllm fonctionne très bien en local et déconnecté par exemple. Mais on perd tout l’intérêt des outils propres à chat ia donc…

LeGrosWinnie

Article pompeux et a priori traduit de l’anglais vu les tournure de phrase et le vocabulaire utilisé…
Ça dit juste comment fonctionne obliteratus c’est tout. Pour le commun des mortels on s’en fout… Toute façon toutes les versions locales fonctionnent déjà sans censure, personne n’a attendu cet outil pour utiliser Lmstudio…