Les données que l'on croit anonymes ne le sont pas forcément

Le recoupement de données a priori anonymes peut conduire, plus ou moins simplement, à retrouver l'identité d'une personne. Un chercheur américain de Princeton brandit cet épouvantail alors que dans le même temps, en France, la ministre de la Santé accélère l'ouverture des données publiques.

Chaque matin, vous pouvez vous rendre dans le même café et commander la même chose. Au bout d'un moment, le barman connaîtra vos habitudes mais pas votre identité - si vous ne lui adressez jamais la parole. Mais en cherchant un peu, il pourra en apprendre plus sur vous. C'est, peu ou prou, la même logique dans le monde de la collecte des données sur Internet. L'industrie de la publicité en ligne est par exemple très friande en données de profil, et de navigation.

Dans sa charte, la société de reciblage publicitaire française Criteo explique : « Nous ne savons pas qui vous êtes. Nous ne connaissons pas votre adresse, ni votre lieu de travail, votre date de naissance, votre adresse électronique, votre numéro de téléphone, ni aucune autre donnée personnelle. Nous n'utilisons pas et ne stockons pas votre adresse IP à des fins de ciblage. » Criteo ne collecte que « des données anonymes », via les cookies. Elles concernent le comportement en ligne, l'âge ou encore le sexe et le type d'ordinateur.

L'art de recouper les données

Or, ces informations ne suffiraient-elles pas à retrouver l'identité d'un internaute ? C'est la thèse défendue par un chercheur américain en informatique, Arvind Narayanan, cité par Qwartz. Il explique cela dans un papier intitulé « Pas de solution magique : l'anonymisation n'existe toujours pas », une réponse au livre blanc (.pdf) de l'Information Technology and Innovation Foundation, soutenant que l'anonymisation fonctionne.

Prenons les données de localisation, de plus en plus scrutées par les publicitaires, à mesure que leur business se déplace sur mobile. Selon Arvind Narayanan, rappelant une étude de 2013 sur le sujet, 95% des possesseurs de smartphones peuvent être ré-identifiés par le croisement d'au moins quatre de leurs positions géographiques, telles que celles contenues dans les métadonnées des photos prises sur mobile. En se basant sur deux localisations, comme le trajet récurrent domicile-travail, 50% des gens seraient identifiables.

Deux failles dans l'anonymat

Bruno Rasle, délégué général de l'Association française des correspondants à la protection des données à caractère personnel (AFCDP), créée suite à la modification de la Loi informatique et libertés en 2004, nous explique que deux cas peuvent exposer les individus à un travail de ré-identification de la part de tiers.

Le premier est interne à la société. « Lorsque les équipes informatiques testent une nouvelle version d'un logiciel, elles veulent se baser sur des données réelles, alors elles utilisent parfois celles de la base en production. Les entreprises n'en mesurent pas toujours le risque, surtout lorsque les développements sont assurés par un prestataire étranger, et donc soumis à une autre législation... », prévient le spécialiste.

La seconde brèche potentielle est au cœur du mouvement d'open data, soit l'ouverture libre des données d'une organisation privée ou publique. Bruno Rasle poursuit : « Ces données sont nettoyées des éléments d'identification, mais cela peut ne pas suffire. Dans une conférence de l'AFCDP, un docteur avait prouvé que le ministère de la Santé publiait des données qu'il pensait anonymes, mais en les croisant avec d'autres informations, on pouvait finalement retrouver le nom de certaines personnes ainsi que leur pathologie. »

L'expert en sécurisation des données ajoute que les données partagées dans le cadre de l'open data ne pourront jamais être vidées totalement de leur substance, au risque de devenir inintéressantes, et donc non exploitées. Pour en illustrer les limites, il cite une expérience menée en croisant des données de l'Insee et de Google Maps afin de retrouver l'identité du propriétaire d'une parcelle de terrain... Un résultat obtenu, encore une fois, à partir de données anonymes lorsqu'elles sont isolées, mais créant beaucoup de sens une fois liées.

La santé au cœur des débats

En France, où se prépare la future loi sur l'accès aux données de santé, la ministre des Affaires sociales Marisol Touraine, se dit « fortement convaincue et résolument déterminée à faire en sorte que l'accès à ces données soit amélioré ». Mais elle ajoute ne pas vouloir « ouvrir sans limite parce qu'il y a, contrairement à ce qu'affirment certains, des risques de ré-identification indirecte ». La ministre souhaitant « distinguer aussi clairement que possible les données anonymes de celles qui sont indirectement nominatives ».

Sur ce sujet sensible, Arvind Narayanan met en garde. Il prend l'exemple de Latanya Sweeney, aujourd'hui responsable de la technologie de la Federal Trade Commission américaine mais qui, en 1997 déjà, avait réussi à mettre la main sur le dossier médical du gouverneur William Weld à partir de données publiques. Pour y parvenir, elle avait utilisé les données d'une base médicale comprenant le genre, la date de naissance et le code postal des patients, avant de les recouper avec les informations connues du gouverneur... Pour d'autres personnes, ces données pourraient s'obtenir sur des listes de votes ou sur les réseaux sociaux.

Aux Etats-Unis toujours, le réseau Heritage Health travaille sur un algorithme utilisant les données publiques et les historiques médicaux de citoyens afin de prédire les prochaines hospitalisations, mais aussi celles jugées inutiles. Ceci dans le but de faire économiser les 30 milliards de dollars annuels que l'organisation estime gaspillés. Un concours avec une dotation de 3 millions de dollars a même été créé pour récompenser les développeurs à même de ré-identifier des patients et de prédire combien de jours ils seront hospitalisés. Selon Arvind Narayanan, 12% des personnes peuvent subir le même sort, sur la base de leurs données.

Mais que fait la police ?

Depuis la révision de 2005 de la Commission d'accès aux documents administratifs, qui dispose de nouvelles compétences en matière de réutilisation des données publiques, « n'importe quelle société étrangère peut extraire et recouper les données administratives sans qu'aucun observatoire, en France, ne le remarque », indique Bruno Rasle. « Cette entreprise peut monétiser largement ces données », ajoute-t-il, précisant que la révision à venir de la directive européenne 95 46 CE pourrait soumettre ces sociétés au droit européen.

Bruno Rasle nous explique que la notion de difficulté est prise en compte par la justice américaine, et allemande. « Si je porte plainte aux Etats-Unis car mes données n'étaient pas assez protégées, la justice regardera les efforts fournis pour briser cet anonymat. En France, c'est plus strict. Il suffit que quelqu'un ait réussi à ré-identifier une personne pour que l'entreprise soit jugée fautive », souligne l'expert. Mais pour lui, une anonymisation totale est quasi-impossible. Alors il propose la création d'un observatoire indépendant.

Pour ce qui sera de l'accès aux données médicales en France, Marisol Touranie imagine que la Cnil gère la délivrance des autorisations pour tous les chercheurs, qu'ils relèvent du public ou du privé. Pour la ministre, il n'est pas question que ces données alimentent « les stratégies marketing d'entreprises privées » .