Protéger l’identité des panélistes dans les études de marché

intimité

Crédit : Pixabay/CC0 Domaine public

Alerte aux actualités : ce n’est pas parce qu’une société de recherche marketing dit aux participants à l’enquête que leurs informations personnelles resteront anonymes que c’est vrai.

Non, ce n’est pas un grand secret. Mais il n’est pas seulement possible que des informations personnelles soient compromises : selon les recherches d’un professeur et de ses collègues du Cornell SC Johnson College of Business, il est fort probable que l’identité d’un participant à l’enquête et d’autres informations sensibles puissent, en fait, être retracées jusqu’à l’individu. .

“Lorsque les organisations publient ou partagent des données, elles se conforment aux règles de confidentialité, ce qui signifie qu’elles suppriment ou anonymisent les informations personnellement identifiables”, a déclaré Sachin Gupta, Ph.D., professeur de gestion Henrietta Johnson Louis au Samuel Curtis Johnson. Graduate School of Management, au SC Johnson College.

“Et ils pensent qu’ils ont maintenant protégé la vie privée des personnes dont ils partagent les données”, a-t-il déclaré. “Mais cela, en fait, peut ne pas être vrai, car les données peuvent toujours être liées à d’autres données.”

Presque tous les participants aux panels d’études de marché risquent de ne plus être anonymes, déclarent Gupta et ses collègues dans un nouvel article, “Reidentification Risk in Panel Data: Protecting for k-Anonymity”, publié le 7 octobre dans Recherche sur les systèmes d’information.

Les co-auteurs sont Matthew Schneider, MS, Ph.D., professeur agrégé de sciences de la décision et de systèmes d’information de gestion à l’Université Drexel ; Yan Yu, Ph.D., professeur Joseph S. Stern d’analyse commerciale à l’Université de Cincinnati ; et Shaobo Li, professeur adjoint à la School of Business de l’Université du Kansas.

Ce n’est un secret pour personne que les données personnelles – nom, date de naissance, adresse e-mail et autres identifiants – flottent dans l’éther, mûres pour être prises par une personne ou une entreprise très motivée. Cela a été prouvé d’innombrables fois; Gupta et ses collègues ont fait référence à un article de 2008 rédigé par deux chercheurs de l’Université du Texas à Austin, qui ont développé un algorithme de désanonymisation, Scoreboard-RH, capable d’identifier jusqu’à 99 % des abonnés Netflix en utilisant des informations anonymisées provenant d’un Concours 2006, visant à améliorer son service de recommandation, associé à des informations accessibles au public sur Internet Movie Database.

Cette recherche, ainsi que celle de Gupta, s’appuie sur des “quasi-identifiants” ou QID, qui sont des attributs communs à la fois à un ensemble de données anonymisées et à un ensemble de données accessible au public, qui peuvent être utilisés pour les relier. La mesure conventionnelle du risque de divulgation, appelée unicité, est la proportion d’individus avec des QID uniques dans un ensemble de données donné ; Le k-anonymat est un modèle populaire de confidentialité des données visant à protéger contre le risque de divulgation en réduisant le degré d’unicité des QID (c’est-à-dire que les informations QID de tout individu doivent être les mêmes qu’au moins k-1 autres informations QID).

“Unicity a été développé pour les données transversales, où vous avez une observation par individu”, a déclaré Gupta. “Mais dans bon nombre de ces ensembles de données, vous avez des données longitudinales – le même individu est observé au fil du temps. Et maintenant, le risque de réidentification change, en raison de la disponibilité d’observations multiples.”

Gupta et ses collègues ont développé ce qu’ils appellent la « sno-unicité » – comme dans l’unicité boule de neige – qui est fondamentalement le risque de réidentification du pire scénario, car il collecte de manière itérative des individus qui peuvent être réidentifiés de manière unique par au moins un de leurs multiples enregistrements. .

Dans leurs recherches, Gupta et ses collègues ont étudié les données d’études de marché sur 15 catégories de biens de consommation fréquemment achetés, ainsi que la rédaction d’ordonnances médicales. Ils ont constaté que sur la seule base de l’unicité (une seule observation par panéliste), le risque de réidentification dans les données du panel est très élevé, jusqu’à 64 % pour les achats de boissons gazeuses, par exemple.

Cependant, lors de l’utilisation de la sno-unicité (observations multiples par panéliste), ce nombre grimpe à 94 % et est plus élevé dans les 15 catégories. En d’autres termes, les données des gens ne sont pas aussi sécurisées que les chercheurs en marketing pourraient le faire croire. “Nous démontrons”, a déclaré Gupta, “que le risque de réidentification dans de telles données est largement sous-estimé par la mesure d’unicité conventionnelle”.

Un exemple du risque : l’analyse des chercheurs a révélé que parmi les ménages qui étaient réidentifiables en fonction de leurs achats de collations salées dans un magasin donné, 20 % achetaient de la bière et 2 % achetaient des cigarettes dans un autre magasin. Même si ces informations ne sont jamais utilisées, le simple fait qu’elles puissent être obtenues compromet la confidentialité des données.

La nouvelle approche des chercheurs, appelée k-anonymisation de mouvement minimum basée sur des graphes (k-MM), a été spécialement conçue pour préserver l’utilité des données de panel avec une perte minimale d’informations. La distorsion est utilisée pour protéger l’identité des panélistes, en modifiant légèrement les choix de marque d’un panéliste, par exemple, mais elle affecte négativement la valeur des données.

“Les consommateurs de ces données de panel paient pour ces informations, nous ne voulons donc pas en perdre trop”, a déclaré Gupta. “Et pourtant, nous voulons protéger la vie privée, vous voulez donc trouver ce point sur la courbe où vous garantissez un certain seuil de confidentialité – dans notre cas, le k-anonymat – tout en minimisant la perte d’informations.”

Bien que des lois sur la protection de la vie privée soient promulguées aux États-Unis et ailleurs, il sera plus difficile d’obtenir des informations de manière malveillante, Gupta a déclaré que cette recherche est toujours vitale. Les études de marché continueront de collecter et de stocker des données, ce qui signifie que la protection de la vie privée restera un défi.

“La nature du problème va probablement diminuer et changer”, a-t-il dit, “mais je ne pense pas qu’il va disparaître.”


Un nouveau type d’attaque appelé “downcoding” démontre des failles dans l’anonymisation des données


Plus d’information:
Shaobo Li et al, Reidentification Risk in Panel Data: Protecting for k-Anonymity, Recherche sur les systèmes d’information (2022). DOI : 10.1287/isre.2022.1169

Fourni par l’Université Cornell

Citation: Protecting identities of panelists in market research (2022, 10 octobre) récupéré le 10 octobre 2022 sur https://techxplore.com/news/2022-10-identities-panelists.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.