Les données que l'on croit anonymes ne le sont pas forcément

Thomas Pontiroli
15 juillet 2014 à 16h54
0
Le recoupement de données a priori anonymes peut conduire, plus ou moins simplement, à retrouver l'identité d'une personne. Un chercheur américain de Princeton brandit cet épouvantail alors que dans le même temps, en France, la ministre de la Santé accélère l'ouverture des données publiques.

0104000007507619-photo-anonyme.jpg
Chaque matin, vous pouvez vous rendre dans le même café et commander la même chose. Au bout d'un moment, le barman connaîtra vos habitudes mais pas votre identité - si vous ne lui adressez jamais la parole. Mais en cherchant un peu, il pourra en apprendre plus sur vous. C'est, peu ou prou, la même logique dans le monde de la collecte des données sur Internet. L'industrie de la publicité en ligne est par exemple très friande en données de profil, et de navigation.

Dans sa charte, la société de reciblage publicitaire française Criteo explique : « Nous ne savons pas qui vous êtes. Nous ne connaissons pas votre adresse, ni votre lieu de travail, votre date de naissance, votre adresse électronique, votre numéro de téléphone, ni aucune autre donnée personnelle. Nous n'utilisons pas et ne stockons pas votre adresse IP à des fins de ciblage. » Criteo ne collecte que « des données anonymes », via les cookies. Elles concernent le comportement en ligne, l'âge ou encore le sexe et le type d'ordinateur.

L'art de recouper les données



Or, ces informations ne suffiraient-elles pas à retrouver l'identité d'un internaute ? C'est la thèse défendue par un chercheur américain en informatique, Arvind Narayanan, cité par Qwartz. Il explique cela dans un papier intitulé « Pas de solution magique : l'anonymisation n'existe toujours pas », une réponse au livre blanc (.pdf) de l'Information Technology and Innovation Foundation, soutenant que l'anonymisation fonctionne.

Prenons les données de localisation, de plus en plus scrutées par les publicitaires, à mesure que leur business se déplace sur mobile. Selon Arvind Narayanan, rappelant une étude de 2013 sur le sujet, 95% des possesseurs de smartphones peuvent être ré-identifiés par le croisement d'au moins quatre de leurs positions géographiques, telles que celles contenues dans les métadonnées des photos prises sur mobile. En se basant sur deux localisations, comme le trajet récurrent domicile-travail, 50% des gens seraient identifiables.

Deux failles dans l'anonymat



Bruno Rasle, délégué général de l'Association française des correspondants à la protection des données à caractère personnel (AFCDP), créée suite à la modification de la Loi informatique et libertés en 2004, nous explique que deux cas peuvent exposer les individus à un travail de ré-identification de la part de tiers.

Le premier est interne à la société. « Lorsque les équipes informatiques testent une nouvelle version d'un logiciel, elles veulent se baser sur des données réelles, alors elles utilisent parfois celles de la base en production. Les entreprises n'en mesurent pas toujours le risque, surtout lorsque les développements sont assurés par un prestataire étranger, et donc soumis à une autre législation... », prévient le spécialiste.

La seconde brèche potentielle est au cœur du mouvement d'open data, soit l'ouverture libre des données d'une organisation privée ou publique. Bruno Rasle poursuit : « Ces données sont nettoyées des éléments d'identification, mais cela peut ne pas suffire. Dans une conférence de l'AFCDP, un docteur avait prouvé que le ministère de la Santé publiait des données qu'il pensait anonymes, mais en les croisant avec d'autres informations, on pouvait finalement retrouver le nom de certaines personnes ainsi que leur pathologie. »

L'expert en sécurisation des données ajoute que les données partagées dans le cadre de l'open data ne pourront jamais être vidées totalement de leur substance, au risque de devenir inintéressantes, et donc non exploitées. Pour en illustrer les limites, il cite une expérience menée en croisant des données de l'Insee et de Google Maps afin de retrouver l'identité du propriétaire d'une parcelle de terrain... Un résultat obtenu, encore une fois, à partir de données anonymes lorsqu'elles sont isolées, mais créant beaucoup de sens une fois liées.


0140000007507621-photo-data-sant.jpg


La santé au cœur des débats



En France, où se prépare la future loi sur l'accès aux données de santé, la ministre des Affaires sociales Marisol Touraine, se dit « fortement convaincue et résolument déterminée à faire en sorte que l'accès à ces données soit amélioré ». Mais elle ajoute ne pas vouloir « ouvrir sans limite parce qu'il y a, contrairement à ce qu'affirment certains, des risques de ré-identification indirecte ». La ministre souhaitant « distinguer aussi clairement que possible les données anonymes de celles qui sont indirectement nominatives ».

Sur ce sujet sensible, Arvind Narayanan met en garde. Il prend l'exemple de Latanya Sweeney, aujourd'hui responsable de la technologie de la Federal Trade Commission américaine mais qui, en 1997 déjà, avait réussi à mettre la main sur le dossier médical du gouverneur William Weld à partir de données publiques. Pour y parvenir, elle avait utilisé les données d'une base médicale comprenant le genre, la date de naissance et le code postal des patients, avant de les recouper avec les informations connues du gouverneur... Pour d'autres personnes, ces données pourraient s'obtenir sur des listes de votes ou sur les réseaux sociaux.

Aux Etats-Unis toujours, le réseau Heritage Health travaille sur un algorithme utilisant les données publiques et les historiques médicaux de citoyens afin de prédire les prochaines hospitalisations, mais aussi celles jugées inutiles. Ceci dans le but de faire économiser les 30 milliards de dollars annuels que l'organisation estime gaspillés. Un concours avec une dotation de 3 millions de dollars a même été créé pour récompenser les développeurs à même de ré-identifier des patients et de prédire combien de jours ils seront hospitalisés. Selon Arvind Narayanan, 12% des personnes peuvent subir le même sort, sur la base de leurs données.

Mais que fait la police ?



Depuis la révision de 2005 de la Commission d'accès aux documents administratifs, qui dispose de nouvelles compétences en matière de réutilisation des données publiques, « n'importe quelle société étrangère peut extraire et recouper les données administratives sans qu'aucun observatoire, en France, ne le remarque », indique Bruno Rasle. « Cette entreprise peut monétiser largement ces données », ajoute-t-il, précisant que la révision à venir de la directive européenne 95 46 CE pourrait soumettre ces sociétés au droit européen.

Bruno Rasle nous explique que la notion de difficulté est prise en compte par la justice américaine, et allemande. « Si je porte plainte aux Etats-Unis car mes données n'étaient pas assez protégées, la justice regardera les efforts fournis pour briser cet anonymat. En France, c'est plus strict. Il suffit que quelqu'un ait réussi à ré-identifier une personne pour que l'entreprise soit jugée fautive », souligne l'expert. Mais pour lui, une anonymisation totale est quasi-impossible. Alors il propose la création d'un observatoire indépendant.

Pour ce qui sera de l'accès aux données médicales en France, Marisol Touranie imagine que la Cnil gère la délivrance des autorisations pour tous les chercheurs, qu'ils relèvent du public ou du privé. Pour la ministre, il n'est pas question que ces données alimentent « les stratégies marketing d'entreprises privées » .

Modifié le 01/06/2018 à 15h36
0 réponses
0 utilisateurs
Suivre la discussion

Les actualités récentes les plus commentées

Le paiement sur Internet s'arme d'un nouveau système antifraude fonctionnel dès demain
Maladies pulmonaires : les enquêteurs américains n'écartent aucune cigarette électronique
La Suisse veut forcer les compagnies aériennes à renseigner les émissions CO2 sur les billets d'avion
Renault : son crossover électrique K-ZE lancé en Chine, à partir de 8 500 €
Le trou noir au centre de notre galaxie semble avoir de plus en plus faim
Un démantèlement des GAFA ?
Des chercheurs remettent sur la table la solution de l'ascenseur vers la Lune
Le saviez-vous ? Un Game Boy, meurtri, a survécu à la guerre du Golfe
Un son pour avertir les piétons va être ajouté à la Tesla Model 3
La Renault ZOE 2 se lance (enfin !) officiellement

Notre charte communautaire

1. Participez aux discussions

Nous encourageons chacun à exprimer ses idées sur les sujets qui l'intéressent, et à faire profiter l'ensemble de la communauté de son expertise sur un sujet particulier.

2. Partagez vos connaissances

Que vous soyez expert ou amateur passionné, partagez vos connaissances aux autres membres de la communauté pour enrichir le niveau d'expertise des articles.

3. Échangez vos idées

Donnez votre opinion en étayant votre propos et soyez ouverts aux idées des autres membres de la communauté, même si elles sont radicalement différentes des vôtres.

4. Faites preuve de tolérance

Qu'il s'agisse de rédacteurs professionnels ou amateurs, de lecteurs experts ou passionnés, vous devez faire preuve de tolérance et vous placer dans une démarche d'entraide.

5. Restez courtois

Particulièrement lorsque vous exprimez votre désaccord, critiquez les idées, pas les personnes. Évitez à tout prix les insultes, les attaques et autres jugements sur la forme des messages.

6. Publiez des messages utiles

Chaque participation a vocation à enrichir la discussion, aussi les partages d'humeurs personnelles ne doivent pas venir gêner le fil des échanges.

7. Soignez votre écriture

Utilisez la ponctuation, prohibez le langage SMS et les majuscules, relisez-vous afin de corriger un peu les fautes de frappe et de français : trop de fautes n’engagent ni à lire le message, ni à répondre à une question.

8. Respectez le cadre légal

Ne publiez pas de contenus irrespectueux, racistes, homophobes, obscènes ou faisant l'apologie de courants radicaux, qu'ils soient politiques ou religieux. N'utilisez pas plusieurs comptes utilisateurs.

9. Ne faites pas de promotion

Ne profitez pas d'une discussion pour faire la publicité d'un produit, d'un service ou même de votre site web personnel.

10. Ne plagiez pas

Exprimez uniquement vos opinions ou partagez des idées en citant vos sources.

scroll top