lundi 7 avril 2014

L'anonymat, un bien fragile

LE MONDE SCIENCE ET TECHNO Par 
La scène a de quoi inquiéter. Devant son écran d'ordinateur, un patron peu scrupuleux cherche à en savoir plus sur le dossier médical d'un employé fréquemment malade. Connecté au site Web de l'entreprise Health Aware, il renseigne non pas le nom de son salarié mais le nombre des hospitalisations, le mois et les durées des séjours. Il entre aussi le code postal de la ville de résidence, l'âge et le sexe de sa « cible » ; 0,023 seconde plus tard, le service commercial a trouvé l'identité cherchée et, moyennant finance, livre la totalité des connaissances médicales sur l'employé…
« Mon exemple fictif et ma démonstration ont frappé le public », se souvient Dominique Blum, praticien hospitalier à Munster, qui a exposé les failles de l'anonymisation des fichiers de santé lors de l'université des correspondants informatique et libertés en janvier 2012. Selon lui, 89 % des personnes hospitalisées une fois en 2008 et 100 % de celles hospitalisées deux fois sont théoriquement identifiables grâce au fichier PMSI (Programme de médicalisation des systèmes d'information), qui contient les données d'hospitalisation de plus de 23 millions de séjours à l'hôpital. Cette conclusion choc a été rappelée par Pierre-Louis Bras et André Loth dans leur rapport à la ministre de la santé en septembre 2013 sur la gouvernance et l'utilisation des données de santé. Le même Dominique Blum, auditionné en décembre 2013 par un groupe de travail réuni pour faire suite à ce rapport, a récidivé. Cette fois, il a démontré que le fichier des moyens séjours permet, lui aussi, de retrouver des informations cachées comme les dates de séjour, ouvrant la voie à des réidentifications.

Comment se fait-il que des fichiers anonymes ne le soient pas tant que cela ?

C’est dû à un théorème démontré en 2006 par Cynthia Dwork, chercheuse chez Microsoft. Impossible d'assurer une protection complète des données dites « sensibles » (maladie, salaire, chiffre d’affaires d'une entreprise), dès lors que l’« attaquant » dispose d'informations annexes dites « quasi identifiantes » qui peuvent être aussi anodines que l'âge, le lieu de résidence, le sexe…
En fait, le problème n'est pas qu'un fichier contiendrait des identités mal cachées. Il vient que celui-ci permet de retrouver des informations sensibles sur un nom bien particulier, en le croisant avec d'autres registres. Pour reprendre l'exemple des hospitalisations, le rapport Bras-Loth cite ainsi le fait que« plusieurs hommes nés le même mois de la même année ont pu être hospitalisés trois jours en février 2010 à l’hôpital X ; mais il n’y en a sans doute qu’un seul qui ait été hospitalisé six mois plus tard pendant dix jours à l’hôpital Y et ait dans l’intervalle consulté plusieurs fois à l’hôpital Z ».
UN FICHIER D'ÉLECTEURS, PAYANT MAIS BIEN FOURNI
Cette gymnastique intellectuelle est peut-être fictive pour le PMSI et ses dérivés… mais plusieurs exemples ont déjà montré la réalité des risques. En 1997, Latanya Sweeney, alors étudiante au Massachusetts Institute of Technology (MIT), identifie le gouverneur du Massachusetts dans un fichier de santé anonyme à l'aide d'un fichier d'électeurs, payant mais bien fourni. En 2007, grâce à un échantillon de données du loueur de vidéos en ligne Netflix, des chercheurs de l'université du Texas parviennent à retrouver les préférences des utilisateurs et donc leurs goûts personnels. En janvier 2013, le généticien Yaniv Erlich publie dans Science sa méthode pour identifier les personnes à qui appartiennent des séquences génétiques pourtant anonymes. En mars de la même année, une équipe du MIT montre qu'il faut seulement quatre informations sur un utilisateur de téléphone portable pour retrouver l'ensemble de ses traces d'appels localisés parmi 1,5 million…

Science. Anonymat.
Ces cas ne paralysent cependant pas les volontés de diffusion plus larges des données confidentielles. « L'accès à certaines informations est crucial pour l'alerte, la veille, l'action, notamment sur les sujets de santé ou d'environnement. L'attente des citoyens est grande », rappelle Corinne Bouchoux, sénatrice (Europe écologie - Les Verts) et rapporteuse de la mission sur l'accès aux documents administratifs et données publiques, qui termine ses auditions. Notant l'intérêt d'un accès plus large, Avner Bar-Hen et Antoine Flahault, dans Le Monde du 9 mars 2013, dénonçaient le manque de transparence et plaidaient pour autoriser « enfin l'accès aux données de santé en fonction des questions posées, et non à une caste d'experts autorisés. L'avenir de la santé publique et de notre système social dépend des chercheurs, mais aussi des journalistes, des industriels ou des groupes de citoyens ».
DIFFICILE DE CONCILIER CONFIDENTIALITÉ ET TRANSPARENCE
Il est cependant difficile de concilier les exigences de confidentialité et de transparence. Pour y voir plus clair, à la suite du rapport Bras-Loth, une commission dite « open data santé » a été constituée en novembre 2013 par le ministère de la santé. Un groupe de travail, piloté par la Direction de la recherche, des études, de l’évaluation et des statistiques (Drees), lui a été adjoint sur le thème spécifique du « risque de réidentification et de mésusage » (RiRe)« Nous avons été surpris de constater que ce sujet est encore un chantier relativement neuf. Nous pensions arriver plus vite à des lignes de démarcation claires entre ce qui peut être diffusé et ce qui doit rester en accès restreint », explique André Loth, responsable de ce groupe de travail et administrateur général à la Drees. Ce groupe a pu mener un travail d'évaluation du risque sur des données réelles, notamment issues du PMSI.
Une première solution pour éviter ce risque est de restreindre l'accès aux données les plus détaillées, aux administrations ou aux chercheurs. Plusieurs dispositifs existent. Les Etats-Unis ou l'Allemagne invitent les chercheurs à consulter les données dans des locaux spécifiques, sortes de bunkers. Au Danemark ou aux Pays-Bas, des logiciels permettant l'accès aux données et empêchant de les copier sont installés sur les ordinateurs des chercheurs dans leurs laboratoires. En Norvège, des CD-Rom sont envoyés par courrier ou par le réseau Internet. La France, qui a aussi des pratiques semblables à la Norvège pour les sciences sociales grâce au portail du réseau Quetelet, vient de lancer une solution originale : l'accès à distance par boîtier avec le centre d'accès sécurisé distant (CASD). Dans tous les cas, l'autorisation par différents comités d'éthique est obligatoire pour les données les plus détaillées. Des sanctions pénales pour violation du secret (fiscal, médical…) sont prévues (en France, un an d'emprisonnement et 15 000 euros d'amende).
« FONCTION D'OCCULTATION DES INFORMATIONS NOMINATIVES »
La seconde solution, non exclusive des premières, consiste à modifier intelligemment un fichier. Le premier réflexe est d'ôter les noms et de les remplacer par un pseudonyme, mais dans certains cas, notamment pour la santé, il peut être vital de pouvoir faire l'opération inverse et retrouver un nom à partir du pseudo. Depuis les années 1990, la France a, pour le PMSI notamment, mis au point la méthode FOIN, pour « fonction d'occultation des informations nominatives ». Elle consiste à transformer mathématiquement le sexe, la date de naissance et le numéro d'assuré du patient en une suite de caractères incompréhensibles. Faire l'opération inverse est quasi impossible, sauf à disposer d'une clé de chiffrement mathématique, dont seules disposent les administrations. Plusieurs opérations de FOIN sont opérées entre le niveau local et le niveau national afin de brouiller les pistes. Elles aboutissent à l'attribution d'un identifiant chiffré unique à chaque patient.« Cette technique permet de procéder à des appariements entre fichiers de différentes origines », explique Catherine Quantin, de l'université de Bourgogne, qui a contribué au développement de la méthode FOIN. « Mais si on parvient à retrouver la ligne correspondant à un patient particulier dans le fichier, alors on dispose de toutes les informations sur lui », rappelle Dominique Blum, qui suggère de limiter la diffusion de ce « chaînage » entre les informations de séjours hospitaliers, car 95 % des dépositaires du PMSI n'auraient pas besoin, dans les faits, de cette possibilité.
Un autre réflexe est de passer de la pseudonymisation à l'anonymisation proprement dite. Pour cela, les mathématiciens ont été imaginatifs. Benjamin Fung, de l'université Concordia à Montréal, et ses collègues ont dénombré en 2010 une quinzaine de méthodes d'anonymisation et près d'une trentaine d'algorithmes ou de logiciels les utilisant. L'idée générale est de« flouter » ou « appauvrir » les données. La « k-anonymisation », par exemple, proposée par Latanya Sweeney en 2002, consiste à regrouper des individus de telle sorte qu'au moins un nombre kd'entre eux soient impossibles à distinguer par leur quasi-identifiant. Par exemple, le fichier diffusé ne contient pas l'âge exact des personnes mais un agrégat : « trentenaire »« quadra »,« quinqa ». On peut aussi regrouper par départements plutôt que par villes… « La k-anonymité peut ne pas suffire », constatent Frédéric Cuppens et Nora Cuppens-Boulahia, enseignants-chercheurs à Télécom Bretagne (Brest) et ayant participé au groupe RiRe.
LA MÉTHODE DE LA L-DIVERSITÉ
En effet, dans notre exemple, tous les quadras pourraient avoir la même maladie. Auquel cas, si la cible est dans cette tranche d'âge, alors l'« attaquant » dispose d'une information sensible tirée de ce fichier pourtant anonymisé. Ashwin Machanavajjhala, de l'université de Cornell (New York), a proposé en 2006 d'éviter ce problème par la méthode de la l-diversité. C'est un critère qui assure que chaque « paquet » de k-anonymes comporte au moinsdonnées sensibles. Dans notre cas, l maladies différentes. Il faut donc faire de nouveaux regroupements, comme réunir les quadras et les quinquas pour rendre plus hétérogène le groupe. Le problème est alors que les données sont si agrégées qu'elles peuvent devenir inutilisables… « Nous avons cependant montré qu'avec k = 10 et l = 3 (soit trois maladies), il est possible de diffuser des fichiers à risque extrêmement limité de réidentification », signale André Loth.
Qu'à cela ne tienne, d'autres ont proposé non pas de « flouter » les fichiers, mais de les « brouiller ». Cynthia Dwork, dans son article de 2006, prône ainsi la « confidentialité différentielle », qui consiste à ajouter du « bruit ». On ajoute des lignes dans les fichiers ou on en retire, de façon à ne pas modifier les propriétés statistiques de l'ensemble. Dans un article de Pour la science de novembre 2013, les chercheurs Tristan Allard, Benjamin Nguyen et Philippe Pucheral l'illustrent avec la grippe. Pour savoir combien de personnes sont grippées parmi cent dossiers, on peut ajouter 1 000 dossiers fictifs auxquels une maladie parmi quatre est attribuée équiprobablement, dont la grippe. Il suffit alors de compter l'ensemble des grippés et de soustraire 250 pour avoir le nombre exact. « Mais il y a évidemment des réticences déontologiques à mettre à disposition des chercheurs des données fausses », souligne Roxane Silberman, directrice du réseau Quetelet et directrice scientifique du CASD. Et puis à chaque « question » il faut adapter la méthode de brouillage, ce qui rend la technique peu opérationnelle. « En fait, il n'y a pas d'accord général sur ce qu'est un fichier bien anonymisé. Chacun a ses pratiques », note Roxane Silberman. « J'ai pu constater aussi un écart entre les “théoriciens”, qui ont de belles idées, et les “praticiens”, qui recherchent l'efficacité », indique un observateur des travaux du RiRe.
DES OPÉRATIONS STATISTIQUES SUR LES DONNÉES… SANS LES VOIR
Nora et Frédéric Cuppens font état cependant de nouvelles approches, encore plus mathématiques. Voire magiques. Il s'agirait de faire des opérations statistiques sur les données… sans les voir, car elles seraient toutes chiffrées. C'est le principe du chiffrement homomorphe (Le Monde du 6 avril 2013). En 2009, un chercheur d'IBM, Craig Gentry, a montré qu'il était possible de multiplier et additionner des nombres cryptés (donc« invisibles »), puis de déchiffrer le résultat pour avoir la vraie valeur. Sans savoir quels étaient les nombres originaux. Le défaut est que la technique demande des calculs assez longs et qu'elle ne peut s'appliquer pour l'instant à tous les types d'opérations statistiques. Néanmoins, dans une veine proche, les chercheurs de Brest ont pu développer un moteur de recherche permettant de récupérer des documents chiffrés.
L'équipe de Philippe Pucheral à l’Institut national de recherche en informatique et en automatique (Inria) envisage également une étape future. « Notre système est ouvert à toutes les méthodes d'anonymisation et nous proposons d'effectuer les calculs de façon décentralisée, c'est-à-dire de telle sorte que l'autorité centrale n'ait jamais accès aux données individuelles mais puisse faire des opérations tout de même. Chaque patient garderait ses données, comme le dossier médical par exemple », explique Philippe Pucheral, qui aimerait bien tester à grande échelle son architecture sécurisée.

Malgré les innovations techniques et scientifiques, le sujet reste sensible. L'assurance-maladie anglaise, en février, a dû reporter de six mois son projet Care. data de centralisation des données de santé devant de nombreuses critiques. Dans le même pays, l'entreprise Earthware a dû fermer en mars un site de consultation de données de santé car elle était soupçonnée de s'être illégalement appropriée ces informations. En France, outre la commission « open data santé », deux missions du Sénat sont en cours sur ces sujets. Une consultation portant sur 260 fichiers de données de santé a aussi été lancée jusqu’au 28 avril (Opendatasante.e-questionnaire.com). Un projet de loi devrait suivre pour la fin de l'année. Quels fichiers sortiront des coffres ?


Aucun commentaire:

Enregistrer un commentaire