Les chercheurs renforcent la confidentialité des modèles propriétaires sensibles découverts dans l’exploration de données

Des modèles propriétaires sensibles découverts dans l'exploration de données bénéficient d'un renforcement de la confidentialité

Les chercheurs révèlent comment prendre en charge l’exploration de règles d’association sur des ensembles de données publiés tout en assurant la protection de la confidentialité pour des règles spécifiques. Crédit : Presses universitaires de Tsinghua

Les chercheurs ont donné un coup de pouce à la confidentialité et à la protection des informations exclusives ou sensibles lors de l’exploration de données, sans compromettre la capacité de découvrir des modèles utiles dans d’énormes ensembles de données.

La technique, mise au point par un binôme d’informaticiens de l’université de Chongqing, est décrite dans un article publié dans la revue Exploration et analyse de mégadonnées.

L’exploration de données, la découverte de modèles dans de très grands ensembles de données – impliquant souvent l’apprentissage automatique – et le partage de ces informations à des fins utiles se heurtent souvent à un obstacle lorsque ces modèles de données sont propriétaires, compromettent la confidentialité ou compromettent la sécurité. Et pourtant, ce partage ou cette publication de données améliore la découverte de modèles utiles au profit des propriétaires de ces ensembles de données et de la société dans son ensemble.

Considérez un algorithme d’exploration de données très courant pour découvrir des relations potentiellement utiles entre des variables dans de grands ensembles de données : l’exploration de règles d’association. L’exemple classique, peut-être fictif, d’extraction de règles d’association concerne un grand ensemble de données sur les ventes des supermarchés, où l’on découvre que les clients masculins qui achètent des couches ont également tendance à acheter de la bière. La “règle” ici est l’association de la bière, des couches et des clients masculins. Sur la base de cette règle, un gérant de supermarché peut proposer un forfait à prix réduit à ceux qui achètent ensemble de la bière et des couches.

Mais si cette “règle” était découverte par des concurrents utilisant un ensemble de données publié que le supermarché avait partagé pour améliorer davantage la découverte de modèles, ils pourraient voler des clients du supermarché d’origine en proposant la même stratégie de remise. La règle “couches-signifie-bière” est donc commercialement sensible et devrait être protégée avant que le supermarché ne se sente à l’aise de publier ses données pour que d’autres puissent les utiliser.

Autrement dit, si un plus grand partage de données doit être encouragé, il doit y avoir un moyen de permettre l’exploration de données pour les règles d’association non sensibles (NAR) tout en protégeant l’exploration de données de la découverte de règles d’association sensibles (SARS).

Pour résoudre le problème de la règle d’association sensible, les chercheurs ont par le passé proposé de protéger les informations sensibles en les masquant simplement après leur découverte avant tout partage de l’ensemble de données. Ceci est réalisé en diminuant la fréquence d’apparition de toutes les données dans l’ensemble de données qui suggèrent la règle d’association. Ce n’est cependant pas très pratique car un seul SAR de ce type peut être protégé à la fois, et la technique ne fournit de toute façon pas une forte confidentialité des données.

D’autres chercheurs ont essayé de transformer le problème SAR en un problème d’optimisation à objectif unique – trouver la meilleure solution pour un critère spécifique. Cela renforce la confidentialité des données mais réduit l’utilité de l’ensemble de données. Une autre approche consiste à crypter les données avant d’effectuer toute exploration de données sur l’ensemble de données, mais cela peut prendre beaucoup de temps, en particulier lorsqu’il est mis en œuvre sur des ensembles de données particulièrement volumineux, ceux-là même qui ont le plus grand potentiel pour découvrir des modèles d’intérêt.

Les chercheurs de Chongqing ont donc voulu trouver une solution qui diminue le potentiel de fuite de confidentialité tout en améliorant l’utilité des données, et ce, tout en limitant le temps qu’une telle technique prendrait.

Leur solution, qu’ils appellent “une approche de nettoyage optimisée pour la publication de données exploitables”, ou simplement SA-MDP, reconnaît que toute solution au problème SAR doit trouver un compromis acceptable entre l’utilité des données et la confidentialité des données, plutôt que de résoudre pour un ou l’autre indépendamment. Il s’agit d’un problème d’optimisation à objectifs multiples, plutôt qu’un problème d’optimisation à objectif unique, où plusieurs objectifs doivent être optimisés. Alors que de nombreux domaines, de la logistique à l’ingénierie, sont régulièrement confrontés à de tels problèmes, ils sont par nature épineux. Un voyageur souhaitant trouver le billet d’avion le moins cher le jour qui lui convient avec le siège le plus confortable tout en effectuant le trajet le plus court avec le moins d’escales est confronté à un problème d’optimisation multi-objectifs. L’enjeu réside dans le fait qu’il n’existe pas de solution unique optimisant simultanément chacun de ces objectifs ; au lieu de cela, il peut y avoir beaucoup, peut-être même un nombre infini de solutions « candidates » optimales qui sont également bonnes.

Pour SA-MDP, les chercheurs ont conçu un algorithme personnalisé d’« optimisation par essaim de particules » (PSO) pour résoudre efficacement ce problème d’optimisation à objectifs multiples. La méthode PSO, un algorithme d’inspiration biologique, a été découverte à l’origine dans les années 1990 par des chercheurs visant à simuler le comportement social d’animaux qui pullulaient comme des volées d’oiseaux ou des bancs de poissons. Mais les chercheurs ont découvert que leur algorithme effectuait en fait des calculs d’optimisation pour résoudre les problèmes de l’essaim. Sous PSO, un grand groupe de solutions candidates sont traitées comme des particules comme des oiseaux dans un troupeau dans «l’espace de recherche» – l’ensemble à travers lequel l’algorithme recherche. Déplacer ces particules dans l’espace de recherche selon certaines règles mathématiques de base régissant la vitesse et la position d’une particule revient à imaginer chaque oiseau individuel aidant le troupeau dans son ensemble à trouver la solution optimale.

Pour améliorer la capacité d’exploration de SA-MDP, la technique introduit également le concept de fractionnement de particules, qui permet à une particule de produire plusieurs « particules enfants ».

Et pour accélérer le processus, la méthode implique un nouveau mécanisme de prétraitement qui supprime toutes les transactions non pertinentes afin que la taille de l’espace de recherche puisse être réduite.

Après avoir conçu la nouvelle approche, les chercheurs l’ont ensuite testée sur plusieurs ensembles de données accessibles au public couramment utilisés dans de tels tests – un ensemble de mouvements d’échecs, un ensemble de données d’attributs de champignons utilisés pour les classer en comestibles ou toxiques, et une série de flux de clics (la séquence de liens cliqués) de visiteurs de sites Web. Ils ont trouvé que leur technique battait facilement la concurrence.

“Notre méthode offre la même protection de la vie privée que l’approche standard pour masquer les règles d’association sensibles, mais avec une meilleure utilité des données, tout en réduisant considérablement le temps d’exécution”, a déclaré Xiaofeng Liao, informaticien à l’Université de Chongqing et co-auteur de l’article avec son doctorant Fan Yang.

Ils ont comparé ces résultats à ceux de l’algorithme d’optimisation de la recherche coucou pour masquer les règles d’association sensibles, ou COA4ARH, un algorithme commun utilisé pour masquer les règles d’association sensibles (masquage des règles d’association) lors de l’exploration de données.

Ils ont constaté que leur approche produisait le même effet protecteur que la capacité de COA4ARH à masquer les règles sensibles, et la battait sur la capacité à produire des règles d’association utiles, tout en réduisant de moitié le temps d’exécution.


Des flips multi-spins et une voie vers des machines Ising efficaces


Plus d’information:
Fan Yang et al, Une approche de nettoyage optimisée pour la publication de données exploitables, Exploration et analyse de mégadonnées (2022). DOI : 10.26599 / BDMA.2022.9020007

Fourni par Tsinghua University Press

Citation: Des chercheurs renforcent la confidentialité des modèles propriétaires sensibles découverts dans l’exploration de données (15 juin 2022) récupéré le 15 juin 2022 sur https://techxplore.com/news/2022-06-privacy-boost-sensitive-proprietary-patterns.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.