Protocole efficace pour sécuriser les informations privées d’un utilisateur lorsque les algorithmes l’utilisent pour recommander du contenu

Protocole efficace pour sécuriser les informations privées d'un utilisateur lorsque les algorithmes l'utilisent pour recommander du contenu

Les chercheurs conçoivent un protocole efficace pour sécuriser les informations privées d’un utilisateur lorsque des algorithmes les utilisent pour recommander des produits, des chansons ou des émissions. Crédit : Christine Daniloff, MIT

Les algorithmes recommandent des produits lorsque nous achetons en ligne ou suggèrent des chansons que nous pourrions aimer lorsque nous écoutons de la musique sur des applications de streaming.

Ces algorithmes fonctionnent en utilisant des informations personnelles telles que nos achats passés et l’historique de navigation pour générer des recommandations personnalisées. La nature sensible de ces données rend la préservation de la vie privée extrêmement importante, mais les méthodes existantes pour résoudre ce problème reposent sur des outils cryptographiques lourds nécessitant d’énormes quantités de calcul et de bande passante.

Les chercheurs du MIT ont peut-être une meilleure solution. Ils ont développé un protocole de protection de la vie privée qui est si efficace qu’il peut fonctionner sur un smartphone sur un réseau très lent. Leur technique protège les données personnelles tout en garantissant l’exactitude des résultats des recommandations.

En plus de la confidentialité des utilisateurs, leur protocole minimise le transfert non autorisé d’informations à partir de la base de données, connu sous le nom de fuite, même si un agent malveillant tente de tromper une base de données pour qu’elle révèle des informations secrètes.

Le nouveau protocole pourrait être particulièrement utile dans les situations où les fuites de données pourraient violer les lois sur la confidentialité des utilisateurs, comme lorsqu’un fournisseur de soins de santé utilise les antécédents médicaux d’un patient pour rechercher dans une base de données d’autres patients présentant des symptômes similaires ou lorsqu’une entreprise diffuse des publicités ciblées aux utilisateurs sous Réglementation européenne sur la confidentialité.

“C’est un problème vraiment difficile. Nous nous sommes appuyés sur toute une série d’astuces cryptographiques et algorithmiques pour arriver à notre protocole”, explique Sacha Servan-Schreiber, étudiant diplômé du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et auteur principal de l’article qui présente ce nouveau protocole.

Servan-Schreiber a rédigé l’article avec son collègue étudiant diplômé CSAIL Simon Langowski et leur conseiller et auteur principal Srinivas Devadas, professeur Edwin Sibley Webster de génie électrique. La recherche sera présentée au symposium de l’IEEE sur la sécurité et la confidentialité.

Les données à côté

La technique au cœur des moteurs de recommandation algorithmiques est connue sous le nom de recherche du voisin le plus proche, qui consiste à trouver le point de données dans une base de données le plus proche d’un point de requête. Les points de données cartographiés à proximité partagent des attributs similaires et sont appelés voisins.

Ces recherches impliquent un serveur qui est lié à une base de données en ligne qui contient des représentations concises des attributs des points de données. Dans le cas d’un service de streaming musical, ces attributs, connus sous le nom de vecteurs de caractéristiques, pourraient être le genre ou la popularité de différentes chansons.

Pour trouver une recommandation de chanson, le client (utilisateur) envoie une requête au serveur qui contient un certain vecteur de caractéristiques, comme un genre de musique que l’utilisateur aime ou un historique compressé de ses habitudes d’écoute. Le serveur fournit ensuite l’ID d’un vecteur de caractéristiques dans la base de données qui est le plus proche de la requête du client, sans révéler le vecteur réel. Dans le cas du streaming musical, cet identifiant serait probablement un titre de chanson. Le client apprend le titre de la chanson recommandée sans apprendre le vecteur de caractéristiques qui lui est associé.

“Le serveur doit être capable d’effectuer ce calcul sans voir les nombres sur lesquels il effectue le calcul. Il ne peut pas réellement voir les caractéristiques, mais doit toujours vous donner la chose la plus proche dans la base de données”, explique Langowski.

Pour y parvenir, les chercheurs ont créé un protocole qui s’appuie sur deux serveurs distincts qui accèdent à la même base de données. L’utilisation de deux serveurs rend le processus plus efficace et permet l’utilisation d’une technique cryptographique appelée récupération d’informations privées. Cette technique permet à un client d’interroger une base de données sans révéler ce qu’il recherche, explique Servan-Schreiber.

Surmonter les défis de sécurité

Mais bien que la récupération d’informations privées soit sécurisée côté client, elle ne fournit pas à elle seule la confidentialité de la base de données. La base de données propose un ensemble de vecteurs candidats – les voisins les plus proches possibles – pour le client, qui sont généralement vannés plus tard par le client en utilisant la force brute. Cependant, cela peut en dire beaucoup sur la base de données pour le client. Le défi supplémentaire en matière de confidentialité consiste à empêcher le client d’apprendre ces vecteurs supplémentaires.

Les chercheurs ont utilisé une technique de réglage qui élimine la plupart des vecteurs supplémentaires en premier lieu, puis ont utilisé une astuce différente, qu’ils appellent le masquage inconscient, pour masquer tous les points de données supplémentaires à l’exception du voisin le plus proche. Cela préserve efficacement la confidentialité de la base de données, de sorte que le client n’apprendra rien sur les vecteurs de caractéristiques de la base de données.

Une fois qu’ils ont conçu ce protocole, ils l’ont testé avec une implémentation non privée sur quatre ensembles de données du monde réel pour déterminer comment régler l’algorithme pour maximiser la précision. Ensuite, ils ont utilisé leur protocole pour effectuer des requêtes de recherche privées sur le voisin le plus proche sur ces ensembles de données.

Leur technique nécessite quelques secondes de temps de traitement serveur par requête et moins de 10 mégaoctets de communication entre le client et les serveurs, même avec des bases de données contenant plus de 10 millions d’éléments. En revanche, d’autres méthodes sécurisées peuvent nécessiter des gigaoctets de communication ou des heures de temps de calcul. Avec chaque requête, leur méthode a atteint une précision supérieure à 95 % (ce qui signifie que presque à chaque fois, elle a trouvé le voisin approximatif réel le plus proche du point de requête).

Les techniques qu’ils ont utilisées pour activer la confidentialité de la base de données contrecarreront un client malveillant même s’il envoie de fausses requêtes pour essayer de tromper le serveur afin qu’il divulgue des informations.

“Un client malveillant n’apprendra pas beaucoup plus d’informations qu’un client honnête suivant le protocole. Et il protège également contre les serveurs malveillants. Si l’on s’écarte du protocole, vous n’obtiendrez peut-être pas le bon résultat, mais ils n’apprendront jamais ce que la requête du client était », dit Langowski.

À l’avenir, les chercheurs prévoient d’ajuster le protocole afin qu’il puisse préserver la confidentialité en utilisant un seul serveur. Cela pourrait lui permettre d’être appliqué dans des situations plus réelles, car il ne nécessiterait pas l’utilisation de deux entités non complices (qui ne partagent pas d’informations entre elles) pour gérer la base de données.

« La recherche du voisin le plus proche sous-tend de nombreuses applications critiques basées sur l’apprentissage automatique, qu’il s’agisse de fournir aux utilisateurs des recommandations de contenu ou de classer les conditions médicales. Cependant, cela nécessite généralement de partager de nombreuses données avec un système central pour agréger et activer la recherche », déclare Bayan Bruss, responsable de la recherche appliquée en apprentissage automatique chez Capital One, qui n’a pas participé à ce travail. “Cette recherche constitue une étape clé pour garantir que l’utilisateur bénéficie des avantages de la recherche du plus proche voisin tout en étant sûr que le système central n’utilisera pas ses données à d’autres fins.”


Système de gestion des données développé pour combler le fossé entre les bases de données et la science des données


Plus d’information:
Recherche privée du voisin le plus proche approximatif avec communication sublinéaire. eprint.iacr.org/2021/1157.pdf

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Protocole efficace pour sécuriser les informations privées d’un utilisateur lorsque des algorithmes l’utilisent pour recommander du contenu (13 mai 2022) récupéré le 13 mai 2022 sur https://techxplore.com/news/2022-05-efficient-protocol-user-private-algorithms .html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.