Un nouveau type d’attaque appelé “downcoding” démontre des failles dans l’anonymisation des données

Un nouveau type d'attaque appelé

Crédit : Matthew Ansley via Unsplash

Lorsque des ensembles de données contenant des informations personnelles sont partagés à des fins de recherche ou utilisés par des entreprises, les chercheurs tentent de dissimuler les données, en supprimant le ou les deux derniers chiffres d’un code postal, par exemple, tout en préservant leur utilité pour la compréhension.

Mais alors que l’anonymisation est souvent destinée à satisfaire aux exigences légales en matière de confidentialité des données, les méthodes les plus couramment utilisées reposent sur un terrain technique fragile.

Aloni Cohen, informaticien de l’Université de Chicago, porte le dernier coup décisif contre les techniques de désidentification les plus populaires dans un nouvel article.

En décrivant un nouveau type d’attaque appelé « downcoding » et en démontrant la vulnérabilité d’un ensemble de données anonymisées provenant d’une plate-forme d’éducation en ligne, Cohen avertit que ces transformations de données ne doivent pas être considérées comme suffisantes pour protéger la vie privée des individus.

“Même selon les normes réglementaires, il y a un problème ici”, a déclaré Cohen, professeur adjoint d’informatique.

Sonner l’alarme

Pendant des années, les chercheurs en sécurité informatique et en confidentialité ont tiré la sonnette d’alarme sur les méthodes les plus souvent utilisées pour anonymiser les données, trouvant de nouvelles attaques capables de réidentifier des points de données apparemment anonymisés et proposant des correctifs. Pourtant, ces méthodes restent d’usage courant et considérées comme juridiquement suffisantes pour respecter les réglementations de protection de la vie privée telles que HIPAA et GDPR.

“Les décideurs politiques se soucient des risques du monde réel plutôt que des risques hypothétiques”, a déclaré Cohen. “Donc, les gens ont fait valoir que les risques signalés par les chercheurs en matière de sécurité et de confidentialité étaient hypothétiques ou très artificiels.”

Tout en poursuivant son doctorat. au MIT, Cohen a entrepris de réfuter cet argument. Les méthodes de désidentification les plus courantes découlent d’une approche appelée k-anonymat, qui transforme les données juste assez pour rendre chaque individu impossible à distinguer d’un certain nombre d’autres individus dans l’ensemble de données. L’idée de Cohen était que la cible même de cette méthode de désidentification la laissait ouverte aux attaques.

“L’objectif lorsque vous utilisez ce type de technique est de rédiger le moins de choses dont vous avez besoin pour garantir un niveau d’anonymat cible”, a déclaré Cohen. “Mais si vous atteignez cet objectif de caviardage aussi peu que nécessaire, alors le fait que ce soit le minimum pourrait vous dire quelque chose sur ce qui a été caviardé.”

La désidentification fonctionne en supprimant les quasi-identifiants, c’est-à-dire des informations qui peuvent être regroupées avec des données provenant d’une seconde source pour désanonymiser une personne concernée. Ne pas tenir compte de tous les quasi-identifiants possibles peut entraîner des divulgations. Dans un exemple célèbre, des chercheurs ont pris des données de visionnage de Netflix désidentifiées et les ont combinées avec des données du site de critiques de films en ligne IMDB, identifiant les utilisateurs dans le premier ensemble de données en fonction du moment où ils ont enregistré des critiques des films qu’ils avaient récemment regardés.

Depuis ces découvertes dans les années 2000, les décideurs politiques se sont appuyés sur des experts pour déterminer quels aspects d’un ensemble de données sont ou non des quasi-identifiants, afin d’établir la barre de l’anonymat. Cohen a testé l’extrême : si chaque attribut est considéré comme un quasi-identifiant, le k-anonymat et ses techniques dérivées fonctionnent-ils toujours ?

“Si la désidentification fonctionne, cela devrait fonctionner lorsque tout est quasi-identifiant”, a déclaré Cohen. “C’est en partie ce qui rend ce travail puissant. Cela signifie également que les attaques fonctionnent contre presque toutes les techniques liées au k-anonymat au lieu d’une seule en particulier. L’attaque de Netflix a montré qu’il est difficile de dire ce qui est ou n’est pas un quasi-anonymat. -identifiant. Les attaques de downcoding montrent que, dans certains contextes, cela n’a pas beaucoup d’importance.”

“Pas une baguette magique”

Le document décrit deux attaques théoriques et un exemple concret qui sapent l’argument en faveur de ces protections. Le premier, le downcoding, procède à la rétro-ingénierie des transformations effectuées sur les données, comme l’exemple de code postal mentionné précédemment. La deuxième attaque utilise le sous-codage pour une attaque de sélection de prédicat (PSO), un type spécifique d’attaque contre les normes d’anonymisation des données en vertu de la loi RGPD sur la protection de la vie privée de l’Union européenne. Cette preuve était importante pour montrer aux décideurs politiques que le k-anonymat n’est pas suffisant pour l’anonymisation “publier et oublier” dans le cadre du RGPD, a déclaré Cohen.

“L’argument que nous avançons va à l’encontre de l’idée que l’une de ces techniques est suffisante pour respecter la barre légale de l’anonymisation”, a déclaré Cohen. “Nous repoussons directement cette affirmation. Même selon les normes réglementaires, il y a un problème ici.”

Cohen a illustré cette insuffisance avec une démonstration distincte dans le monde réel sur des données anonymisées d’edX, la plate-forme populaire de cours en ligne massivement ouverts (MOOC). En combinant l’ensemble de données avec des données extraites des CV publiés sur LinkedIn – des informations qui seraient trivialement disponibles pour les employeurs potentiels – Cohen pourrait identifier les personnes qui ont commencé mais n’ont pas réussi à terminer les cours edX, une violation potentielle de la FERPA, la loi sur les droits éducatifs de la famille et la confidentialité. (edX a été alerté de la faille et a modifié ses protections de données.)

Le message à retenir, a déclaré Cohen, est que ces méthodes d’anonymisation ne sont pas une baguette magique pour dissiper les problèmes de confidentialité lors du partage de données potentiellement sensibles. Il espère que les régulateurs se rendront compte qu’une approche en couches sera beaucoup plus efficace pour atteindre leurs objectifs.

“Si ce que vous voulez faire, c’est prendre des données, les assainir, puis les oublier – les mettre sur le Web ou les donner à des chercheurs extérieurs et décider que toutes vos obligations de confidentialité sont remplies – vous ne pouvez pas le faire en utilisant ces techniques », a déclaré Cohen. “Ils ne doivent pas vous libérer de vos obligations de réfléchir et de protéger la confidentialité de ces données.”


Toutes les applications de confidentialité ne sont pas égales


Plus d’information:
Aloni Cohen, Attaques contre les défenses de la désidentification. www.usenix.org/conference/usen … 2/presentation/cohen

Fourni par l’Université de Chicago

Citation: Un nouveau type d’attaque appelé “downcoding” démontre des failles dans l’anonymisation des données (10 octobre 2022) récupéré le 10 octobre 2022 sur https://techxplore.com/news/2022-10-kind-downcoding-flaws-anonymizing.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.