La psychiatrie française en revue, etc.: Profilage et discriminations : enquête sur les dérives de l’algorithme des caisses d’allocations familiales

Par Gabriel Geiger (Lighthouse Reports), Soizic Pénicaud (Lighthouse Reports), Manon Romain et Adrien Sénécat

Publié le 4 décembre 2023

ENQUÊTE Depuis 2010, la CAF note ses treize millions de foyers d’allocataires pour orienter ses contrôles. « Le Monde » a enquêté sur ce système, accusé de discriminer les plus vulnérables.

Dis-moi qui tu es, l’algorithme dira si tu es suspect. A la Caisse nationale des allocations familiales (CNAF), où la recherche des erreurs de déclaration et des fraudes s’est industrialisée au cours des dernières années, un outil a été érigé en totem : le data mining (exploration de données). La priorisation des dossiers à contrôler repose aujourd’hui quasi exclusivement sur un « score de risque » calculé pour chaque allocataire suivant une batterie de critères personnels.

Ce système fait la fierté de l’institution, qui en vante les performances. Mais les alertes se multiplient sur les possibles dérives de cet algorithme, baptisé « data mining modèle entrant » (DMDE). Plusieurs associations ont accusé la CNAF de discriminer les plus vulnérables au sein des publics à qui elle verse chaque mois le revenu de solidarité active (RSA), les aides au logement ou encore les allocations familiales.

L’ancien Défenseur des droits Jacques Toubon a fustigé en 2020 une démarche fondée sur des « préjugés et des stéréotypes », tandis que de nombreux médias, du Monde à Radio France, en passant par StreetPress, ont documenté la détresse des allocataires face à un système implacable.

Comment nous avons enquêté sur l’algorithme des CAF

Chaque mois, 13,8 millions de foyers d’allocataires sont notés par la Caisse nationale des allocations familiales (CNAF) pour prioriser les contrôles de l’organisme. Mais la recette de cet algorithme, qui a des effets concrets sur des centaines de milliers de familles, est tenue secrète. Voici comment Le Monde et le collectif de journalistes Lighthouse Reports ont enquêté pour ouvrir la « boîte noire » du score de risque de la CNAF :

notre méthodologie d’analyse du code source de l’algorithme est détaillée ici ;
l’intégralité des critères utilisés par la CNAF pour noter les allocataires est consultable ici ;
nos échanges avec la CNAF sont retracés ici ;
transparence : Le Monde publie ici les documents transmis par la CNAF dans le cadre de cette enquête. L’association la Quadrature du Net a également mis en ligne le code source de l’algorithme ici.

La CNAF a-t-elle créé un monstre ? Pour le savoir, Le Monde a exploré avec le collectif de journalistes Lighthouse Reports le fonctionnement et les effets de cet algorithme. Notre enquête montre qu’il n’a pas été conçu pour identifier des comportements suspects, mais utilise des caractéristiques personnelles des allocataires, pour certaines discriminatoires, afin de leur attribuer un risque de fraude.

Une recette tenue secrète

A la caisse d’allocations familiales (CAF), le data mining est expérimenté dès 2004, dans les caisses locales de Dijon et de Bordeaux. Son usage est généralisé en 2010 à l’ensemble du territoire, dans un contexte politique marqué par la chasse à la fraude sociale – Nicolas Sarkozy a promis pendant sa campagne pour la présidentielle de 2007 de « punir les fraudeurs », avant de mettre en place, une fois élu, une délégation nationale à la lutte contre la fraude.

Le principe est simple : il s’agit de déterminer les profils d’allocataires les plus susceptibles d’avoir commis des irrégularités dans leurs déclarations. Pour cela, la CNAF lance un gigantesque test grandeur nature : elle envoie ses 700 contrôleurs au domicile de 7 000 allocataires tirés au sort pour vérifier leur situation en détail. Des statisticiens s’intéressent ensuite aux caractéristiques communes des dossiers ayant abouti à la réclamation de sommes versées à tort (les « indus », dans le jargon interne). Ils cherchent des corrélations avec les nombreuses données dont ils disposent sur les bénéficiaires fautifs – pas moins d’un millier d’informations distinctes sur chaque personne.

Fort de ces constats, l’organisme a choisi une quarantaine de critères auxquels il a attribué des coefficients de risque. Ce système lui permet ensuite de donner automatiquement à chaque bénéficiaire un score allant de 0 à 1, en piochant dans ses données personnelles. Plus ce score est élevé, plus les chances de subir un contrôle sur place (à domicile) sont élevées. Par exemple, comme la CNAF dit observer que les dossiers des étudiants comportent statistiquement moins d’irrégularités, le fait d’être en études fait baisser le score de risque. A l’inverse, être apprenti l’augmente.

Les critères utilisés par l'algorithme

Quelques critères pénalisants

Avoir un enfant à charge de 19 ans ou plus

Avoir changé de loyer plus de 4 fois en 1 an et demi

Déclarer ses ressources pour l'allocation adulte handicapée chaque trimestre

Avoir été veuf·ve, divorcé·e ou séparé·e avec un changement depuis

Quelques critères bénéfiques

Avoir un haut revenu

Etre veuf·ve sans évolution

Etre sous tutelle

Totaliser plus de 14 mois d'activité (allocataire et conjoint) sur un an

Cette méthode de ciblage détectant plus d’irrégularités que les contrôles aléatoires s’est rapidement imposée : en quelques années, le data mining est devenu le premier facteur de déclenchement des contrôles à domicile (environ 70 % en 2021). La recette de ces calculs est pourtant tenue secrète, même au sein de l’organisme. Les contrôleurs, envoyés au domicile des familles ciblées par l’algorithme, ne savent pas sur quels critères se fonde la machine.

« L’algorithme cible les plus pauvres »

Le Monde et Lighthouse Reports ont pu reconstituer le fonctionnement de ce système en obtenant de larges extraits de l’algorithme DMDE grâce à des demandes de documents administratifs, comme l’a fait en parallèle La Quadrature du Net, une association de défense des libertés numériques. Nous avons analysé ces données techniques, et complété nos recherches par des entretiens avec de nombreuses sources internes et extérieures à la CNAF.

Si le système a été ajusté chaque année à partir de l’enquête annuelle sur les contrôles aléatoires, et a fait l’objet de deux mises à jour plus larges en 2014 et 2020, sa logique n’a pas varié dans le temps. Le score de risque est principalement calculé à partir de critères portant sur la composition du foyer, ses ressources ou la situation professionnelle de ses membres.

De plus, une poignée de ces critères peuvent faire varier drastiquement le score de risque. Les contrôles ciblent donc davantage des profils types, sur des critères que les déclarants ne maîtrisent pas, que des comportements suspects ou des situations incohérentes, comme le prétend la CNAF.

Plus troublant encore, l’algorithme utilise des éléments liés à la situation familiale des allocataires, à l’âge des membres du foyer, à la vulnérabilité économique ou au handicap. Parmi les critères qui augmentent le score de risque, on trouve par exemple :

le fait d’avoir un conjoint de plus de 60 ans ;
le fait d’avoir un enfant de plus de 12 ans dans le foyer ;
le fait d’être récemment divorcé(e), veuf(ve) ou séparé(e) ;
le fait d’avoir des revenus inférieurs à un certain seuil (942 euros pour une personne seule) ;
le fait d’être bénéficiaire de l’allocation adulte handicapé (AAH) et de déclarer ses ressources chaque trimestre (obligatoire pour les personnes travaillant hors d’un établissement et service d’aide par le travail).

L’utilisation de ces caractéristiques est en principe prohibée par les législations française et européenne. « Si certains publics sont davantage exposés aux contrôles sur la base de critères protégés, c’est clairement discriminatoire d’un point de vue politique, et peut-être aussi juridique », réagit Thomas Dumortier, conseiller juridique à la Commission nationale consultative des droits de l’homme (CNCDH). Le droit restreint clairement le recours à de tels critères aux cas où les buts recherchés et les moyens employés sont « légitimes ».

Plusieurs associations interrogées par Le Monde s’alarment également de ces pratiques. « Les institutions ne se rendent pas compte de la violence de ce système. C’est peut-être bien intentionné au départ, mais le résultat est clairement que l’algorithme cible les plus pauvres », déplore Bruno Rakedjian, coordinateur national d’ATD Quart Monde. Pour Pascale Ribes, présidente de l’association APF France Handicap, le ciblage des bénéficiaires de l’AAH en activité est « vraiment discriminant et injuste. Cela considère cette population comme des fraudeurs potentiels. »

La CNAF, elle, rejette l’accusation, assurant n’opérer que sur des fondements statistiques. C’est notamment à cause d’un « impact avéré sur les risques d’erreurs » qu’elle juge justifié de contrôler davantage les parents isolés (des femmes, dans plus de huit cas sur dix) ou les personnes dont le conjoint est décédé au cours de l’année.

Pour Thomas Dumortier, de la CNCDH, cet argument occulte la dimension sociétale du problème : « On va retenir que les mères célibataires sont à l’origine d’un plus grand nombre d’erreurs, mais c’est aussi le reflet d’une société qui leur rend la vie plus difficile. » D’où l’importance, selon lui, d’auditer l’usage des algorithmes tout au long de leur cycle de vie, « pour vérifier qu’ils ne discriminent pas ». Ce que la CNAF reconnaît ne pas avoir fait depuis le déploiement de ce dispositif à l’échelle nationale, il y a treize ans.

« Maltraitance institutionnelle »

La CNAF entretient aussi un double discours sur la finalité de son algorithme. Officiellement, le data mining ne fait que rechercher des erreurs déclaratives, y compris en défaveur de l’allocataire, et non pas des fraudes intentionnelles.

« Le système est très complexe et on ne peut pas en vouloir à nos allocataires de faire des erreurs », assure son directeur général, Nicolas Grivel. C’est ce que l’administration appelle la recherche du « juste droit » : réclamer 985 millions d’euros de trop-perçus aux allocataires en 2022, mais aussi leur rendre 378 millions de droits non versés à tort. Le data mining, « ce n’est pas un sujet fraude », insiste M. Grivel.

Mais le système n’a pas été conçu pour la recherche du « juste droit ». En pratique, la CAF réclame aux allocataires de lui rembourser une somme après 50 % des contrôles sur place issus du data mining. Si elle verse des droits non réclamés dans 23 % des cas, c’est presque par inadvertance, parce que les deux types d’erreurs de déclaration se recoupent partiellement.

La recherche de ces rectifications en faveur des usagers n’était pas plus un objectif de la dernière version de l’algorithme en place depuis 2020 au niveau national, selon un document technique communiqué au Monde par la CNAF. On y découvre en effet que le taux de détection de ces cas a sensiblement diminué avec cette mise à jour. La priorité de l’époque était de calibrer l’algorithme sur « une cible plus adaptée à la lutte contre la fraude » : les erreurs de déclaration d’une durée d’au moins six mois, avec un trop-perçu supérieur à 600 euros. « Cela permet de couvrir 98 % des indus frauduleux », y lit-on.

Dans ce document de septembre 2020, la CNAF résume les enjeux de son nouveau modèle de ciblage et les choix stratégiques qui ont été pris.

Le data mining est donc bien, au moins en partie, un « sujet fraude ». Ce qui s’observe aussi dans la manière dont sont effectués les contrôles et les suites qui y sont données. Dans bien des dossiers, son utilisation débouche sur une accusation de fraude délibérée. Avec parfois, pour seul « élément intentionnel » de celle-ci, le fait que l’information sur les prestations sociales est « publique, connue et disponible ».

Or, la qualité des explications disponibles sur le site de la CNAF n’est pas toujours au rendez-vous. Par exemple, des bénéficiaires du RSA se voient reprocher d’avoir ponctuellement été aidés financièrement par leur famille sans le déclarer. Mais le formulaire de déclaration des ressources de la prestation ne mentionne explicitement que les « pensions alimentaires ».

Alerté par de nombreux allocataires, le collectif citoyen Changer de cap a lancé au printemps 2022 une campagne médiatique contre cette « maltraitance institutionnelle ». « On a eu l’impression d’ouvrir la boîte de Pandore : en partant des contrôles, on a découvert plein d’autres pratiques illégales de notre point de vue », raconte Céline Tuo, coordinatrice au sein du collectif.

Parmi les griefs récurrents : la CNAF détaille rarement les motifs et les calculs qui l’amènent à réclamer un trop-perçu ou à suspendre des allocations. De même, bien des familles qui tentent de démontrer leur bonne foi ne parviennent pas à se faire entendre de l’institution. « La CNAF massacre un peu les allocataires, estime l’avocat grenoblois Clément Terrasson, qui intervient dans de nombreux dossiers de litiges avec l’institution. Elle n’a clairement pas les mêmes critères de rigueur avec eux qu’avec elle-même. »

Yves Alexis, contrôleur de la CAF de Tarn-et-Garonne et délégué syndical CGT, déplore une évolution négative de son métier sous l’impulsion de la direction de la CNAF depuis plus d’une dizaine d’années. « Avant, on prenait les dossiers, on les vérifiait en intégralité, on faisait du conseil. Aujourd’hui, on est exclusivement sur la lutte contre l’indu et la fraude », juge-t-il. La faute notamment à l’algorithme, pensé selon lui avant tout pour « faire rentrer de l’argent dans les caisses ».

L’embarras de Daniel Lenoir sur ce sujet est révélateur. Convaincu de l’importance de la lutte contre la fraude pour préserver la solidarité nationale, cet énarque de 68 ans a porté l’industrialisation du data mining lorsqu’il dirigeait la CNAF, de 2013 à 2017. Désormais retraité, l’ancien dirigeant assure au Monde avoir confiance en la démarche statistique du modèle, dont il dit avoir toujours refusé de connaître les critères pour que cela reste « une boîte noire ». Mais il en constate aujourd’hui les effets pervers : « Je me suis aperçu de dérives inquiétantes, notamment grâce au travail de Changer de cap : visiblement, on a eu tendance à assimiler erreur et suspicion de fraude. »

« Vous pourriez aussi aider les gens »

Daniel Lenoir pointe également un autre problème : les prestations sociales à destination des plus démunis sont également celles dont les conditions d’attribution et les obligations déclaratives sont les plus complexes. Par exemple, les bénéficiaires de l’AAH et du RSA doivent déclarer leurs ressources tous les trois mois, contre une fois par an pour les autres. L’actuel directeur, Nicolas Grivel, en convient : « On ne cible pas le RSA parce que c’est le RSA. Mais on cible forcément, dans une politique de contrôle, les prestations qui ont le plus grand risque d’erreurs, parce qu’elles reposent sur une plus grande complexité. »

« Avec ce type de système, les plus précaires sont les plus exposés, car ils sont dans des situations plus instables et plus compliquées », analyse le sociologue Vincent Dubois, auteur de plusieurs enquêtes sur les politiques de lutte contre la fraude sociale, notamment au sein des CAF. « Le hasard fait bien les choses : la technique produit les mêmes résultats que les injonctions politiques », ironise le chercheur.

Le fait de concentrer les moyens informatiques sur les contrôles peut également faire débat. « Ce qui est regrettable, c’est qu’avec toutes ces données, vous pourriez aussi aider les gens à avoir accès à leurs droits et à bien déclarer », fait remarquer Bruno Rakedjian d’ATD Quart Monde. « Si on veut éviter les erreurs, il faut expliquer clairement les choses en amont et accompagner les allocataires dans leurs démarches », soupire Pascale Ribes d’APF France Handicap.

Malgré des années d’alertes, le gouvernement s’est peu impliqué dans ce dossier. Contactée par Le Monde, la ministre des solidarités, Aurore Bergé, n’a pas souhaité s’exprimer. Dans le discours officiel, la solution miracle aux erreurs de déclaration doit venir du système de « solidarité à la source », prévu d’ici à la fin du quinquennat. « Le projet, c’est d’avoir tout de suite l’information sur les ressources des allocataires sans leur demander de les déclarer eux-mêmes, comme cela a été fait sur les impôts », vante Nicolas Grivel.

En attendant, le montant des erreurs dans l’attribution des prestations de la CNAF, trop-perçus et non-recours confondus, était de 5,8 milliards d’euros en 2022, soit 7,6 % du montant total versé par l’organisme. Une somme telle que la Cour des comptes a rejeté ses comptes. Pour Yves Alexis, cette situation s’explique en partie par une confiance aveugle dans l’informatique : « Avant, il était facile d’avoir quelqu’un à l’accueil, si le dossier était compliqué on le transmettait à un conseiller dans un bureau et cela marchait très bien, se souvient le contrôleur de Montauban. On nous a retiré des moyens humains que les outils technologiques n’ont pas compensés. »

La psychiatrie française en revue, etc.

mardi 5 décembre 2023

Profilage et discriminations : enquête sur les dérives de l’algorithme des caisses d’allocations familiales