Oui, la CAF a ouvert son algorithme, mais la transparence s'arrête là

Publier le code d'un algorithme, c'est bien. Mais si les données sur lesquelles il s'est entraîné restent dans l'ombre, la position de transparence ne tient pas la route. C'est ce que reproche La Quadrature du Net à la CNAF après la mise en ligne du DMDE 2026.

Oui, la CAF a ouvert son algorithme, mais la transparence s'arrête là ©Shutterstock

Depuis le 15 janvier 2026, quiconque veut examiner le fonctionnement du "DataMining Données Entrantes", l'outil statistique que la CAF utilise pour identifier les dossiers présentant un risque de trop-perçu, peut consulter son code source en ligne. Ce modèle, codé en Python, attribue un score de risque à chaque dossier parmi les 13,8 millions de foyers allocataires. Ensuite, c'est un contrôleur humain qui décide s'il engage ou non une vérification. L'algorithme ne prend aucune décision seul.

Le code, oui, les données d'entraînement, non

La CNAF présente cette publication comme un geste d'ouverture inédit, accompagnée d'une charte éthique et d'un comité dédié réuni depuis mars 2025. Mais pour La Quadrature du Net, voir le code sans accéder aux données sur lesquelles il a été entraîné revient à lire une recette sans connaître les ingrédients utilisés : on comprend la logique, pas le résultat réel.

L'association pointe ainsi une lacune précise : les données d'entraînement, celles qui ont façonné les coefficients du modèle et donc les profils jugés "à risque", ne sont pas communiquées. Sans elles, impossible de vérifier si l'algorithme reproduit ou amplifie des biais sociaux, même si la CNAF affirme avoir exclu les variables les plus sensibles, comme la nationalité, le sexe ou l'adresse exacte.

À découvrir

La CAF révèle enfin comment fonctionne l'algorithme qui déclenche les contrôles des allocataires

16 janvier 2026 à 08h04

News

Le recours au Conseil d'État, lui, continue

Cela fait quelque temps déjà que cet algorithme fait polémique. Depuis octobre 2024, La Quadrature du Net et une quinzaine d'associations, accompagnées par une dizaine d'organisations supplémentaires en janvier 2026, ont saisi le Conseil d'État pour obtenir l'abandon de cet algorithme. Le Défenseur des droits a lui-même reconnu que l'outil pouvait "provoquer une discrimination indirecte".

Le débat autour du DMDE ne porte pas sur la mécanique du code, mais sur ce qu'il a appris à repérer. Le DMDE 2018 (la version précédente, déployée jusqu'en 2026) avait été construit sur des données couvrant la période 2015-2017. Les associations et La Quadrature du Net avaient montré que cet ancien modèle associait le fait de percevoir le RSA ou la prime d'activité à un score de suspicion plus élevé. Autrement dit, avoir des revenus modestes augmentait statistiquement vos chances d'être contrôlé.

Pour le DMDE 2026, la CNAF dit avoir travaillé différemment. Le document technique de présentation révèle que les variables liées à la perception de l'AAH ou de l'AEEH (l'allocation pour enfant handicapé) n'ont "finalement pas été retenues dans le modèle final". Elles avaient été étudiées, car leur lien avec certaines erreurs déclaratives aurait pu se justifier sur le plan légal, mais elles n'ont pas passé le filtre statistique : elles n'étaient pas suffisamment liées aux cas de trop-perçu effectivement constatés.

Le problème reste entier

Un point reste problématique, et la CNAF ne le nie pas : percevoir le RSA ou la prime d'activité fait toujours monter le score de risque dans le DMDE 2026. Concrètement, un foyer qui touche ces aides a plus de chances d'être sélectionné pour un contrôle qu'un foyer qui n'en bénéficie pas, toutes choses égales par ailleurs.

La CNAF a une explication technique : le RSA et la prime d'activité sont des aides dont le montant est calculé chaque trimestre à partir des ressources que les allocataires déclarent eux-mêmes. Plus une prestation repose sur des déclarations fréquentes et variables, plus le risque d'erreur (volontaire ou non) est statistiquement élevé. Supprimer ces variables du modèle reviendrait, selon la CNAF, à aveugler l'algorithme sur les situations dans lesquelles les erreurs sont les plus fréquentes.

C'est précisément là que La Quadrature du Net voit un biais : en ciblant les prestations les plus déclaratives, l'algorithme cible mécaniquement les foyers les plus modestes. Pas parce qu'ils fraudent davantage, mais parce que leurs droits sont les plus complexes à calculer et les plus susceptibles de générer des écarts. Le résultat est le même qu'un ciblage intentionnel des précaires, même si la logique de départ est statistique et non discriminatoire au sens juridique du terme.

Nous avions récemment détaillé le fonctionnement du DMDE 2026 et les garanties éthiques annoncées par la CNAF lors de sa publication. La Quadrature du Net déplace aujourd'hui le débat : la question n'est plus "comment fonctionne le code" mais "sur quoi a-t-il appris". Et cette réponse-là reste en attente.