Pour la première fois, la Caisse nationale des allocations familiales (CNAF) publie jeudi le code source de son algorithme de datamining, qui lui permet de mieux cibler les contrôles. Une première pour l'organisme.

La CAF publie le code source de son algorithme de contrôle des allocataires. © Alexandre Boero / Clubic
La CAF publie le code source de son algorithme de contrôle des allocataires. © Alexandre Boero / Clubic

C'est une petite révolution dans la gestion des données publiques, puisque la CAF a dévoilé, jeudi 15 janvier, l'intégralité de son algorithme de datamining, utilisé pour cibler les contrôles d'allocataires. Des variables retenues aux critères exclus en passant par les pondérations, tout est désormais accessible. Inédite à ce niveau, la démarche est accompagnée d'explications sur la charte éthique et le comité dédié récemment mis en place. La Caisse nationale des allocations familiales lance son opération de transparence de ce qu'elle appelle le DMDE 2026, le DataMiningDonnées Entrantes, une petite mine d'or.

La CAF encadre ses algorithmes avec une charte dédiée

La CAF, qui verse chaque année plus de 108 milliards d'euros à 13,8 millions de foyers, n'a plus le droit à l'approximation. Plombée par les critiques récurrentes sur l'opacité des systèmes automatisés, la CAF a décidé de jouer carte sur table. Depuis le mois de mars 2025 par exemple, un comité d'éthique réunit des experts en droit, des représentants d'usagers et des spécialistes des nouvelles technologies autour d'une mission claire, qui consiste à identifier les risques et empêcher les dérives.

Le comité ne se contente pas de donner son avis. Il examine chaque projet d'algorithme, pointe les risques et peut imposer des modifications. Une charte encadre le tout avec des règles strictes : tout doit être transparent, les outils doivent aider les gens (pas les contrôler), et les données personnelles restent ultra-protégées. L'objectif est d'éviter qu'un bon outil ne se transforme en machine à trier les allocataires, autrement dit en menace pour les libertés individuelles, ou un vecteur de discrimination.

« Ouvrir, oui. Mais ouvrir avec sens, méthode et transparence », résume Nicolas Grivel, le directeur général de la caisse nationale. Pour lui, la donnée doit rester au service de la solidarité et de l'équité. Un discours qui vise le message vise aussi à rassurer une opinion publique échaudée par les dérives observées à l'étranger, où certains algorithmes ont stigmatisé les plus fragiles.

Le datamining ne représente que 1% des contrôles des Allocations familiales

À la lecture du document de la CAF, on constate que l'algorithme controversé ne concerne qu'une infime partie des contrôles. Sur 31,5 millions de vérifications en 2024, moins de 1% utilise ce système. Concrètement, il s'agit d'un modèle mathématique qui analyse les dossiers pour repérer ceux présentant le plus de risques d'erreur, comme un versement trop élevé. Il ne s'active d'ailleurs que lorsque le trop-perçu risque de dépasser 600 euros sur six mois. Nous avons remarqué que les modèles ont été codés en Python depuis Databricks.

Mais attention, l'algorithme ne décide rien tout seul. Il produit ce qu'on appelle un « score de risque », qui est une sorte de note attribuée à chaque dossier. Ensuite, c'est un contrôleur bien humain qui décide s'il lance effectivement une vérification ou non. Thomas Desmoulins, responsable du contrôle à la CNAF, rappelle que ces dossiers ciblés par l'outil représentent « une part minoritaire » du travail de ses équipes.

Avec la solidarité à la source, généralisée depuis mars 2025, l'algorithme a dû évoluer. Désormais, les déclarations trimestrielles pour le RSA et la prime d'activité arrivent pré-remplies automatiquement. L'algorithme utilise deux moteurs distincts pendant cette phase de transition. Le premier analyse les périodes où les allocataires déclaraient encore manuellement leurs ressources. Le second examine les données de l'ère du pré-remplissage. Cette double configuration prendra fin en 2027, annonce la CNAF.

Voici un morceau de code du programme d'identification des signalements de la CAF, codé en Python. © Alexandre Boero / Clubic
Voici un morceau de code du programme d'identification des signalements de la CAF, codé en Python. © Alexandre Boero / Clubic

Des données sont volontairement exclues de l'algorithme de contrôle

Pour éviter que l'algorithme ne reproduise ou n'amplifie des biais sociaux, les concepteurs du DMDE ont rayé de la carte certaines données sensibles. Tout ce qui est nationalité, sexe, adresse complète et nom du quartier résidentiel n'entre pas dans les calculs du modèle. Il est donc impossible que le simple fait d'habiter à tel ou tel endroit, ou d'avoir telle origine influence le score attribué à un dossier.

Plus surprenant encore, les données de comportement ne sont pas utilisées. Peu importe si vous vous connectez rarement à votre espace personnel, si vous appelez souvent la CAF ou si vous tardez à envoyer vos justificatifs, rien de tout cela n'entre en ligne de compte. De même, avoir déjà fait l'objet d'un contrôle par le passé ne vous rend pas plus suspect aujourd'hui. L'idée est de casser l'effet boule de neige qui pourrait transformer certains allocataires en cibles permanentes.

Au final, que regarde vraiment l'algorithme ? En fait, il s'intéresse davantage à des faits vérifiables liés à votre situation, comme le type d'activité professionnelle, la composition familiale, les montants de prestations perçues, la présence d'enfants de plus de 19 ans dans le foyer, ou les changements récents dans votre statut. Le tout est analysé selon une méthode statistique classique dite de « régression logistique », qui permet de comprendre et d'expliquer comment le score est calculé. Pas de boîte noire opaque, donc, mais un système lisible dont le code source est désormais consultable par tous sur le site de la CAF.