La confidentialité des mégadonnées pour l’apprentissage automatique vient d’être 100 fois moins chère

La confidentialité des mégadonnées pour l'apprentissage automatique vient d'être 100 fois moins chère

L’informaticien de l’Université Rice Ashumali Shrivastava (à gauche) et l’étudiant diplômé Ben Coleman ont découvert un moyen peu coûteux de mettre en œuvre une confidentialité rigoureuse des données personnelles lors de l’utilisation ou du partage de grandes bases de données pour l’apprentissage automatique. Crédit : Jeff Fitlow/Université Rice

Les informaticiens de l’Université Rice ont découvert un moyen peu coûteux pour les entreprises technologiques de mettre en œuvre une forme rigoureuse de confidentialité des données personnelles lors de l’utilisation ou du partage de grandes bases de données pour l’apprentissage automatique.

“Il existe de nombreux cas où l’apprentissage automatique pourrait profiter à la société si la confidentialité des données pouvait être assurée”, a déclaré Anshumali Shrivastava, professeur agrégé d’informatique à Rice. « Il existe un énorme potentiel pour améliorer les traitements médicaux ou trouver des modèles de discrimination, par exemple, si nous pouvions former des systèmes d’apprentissage automatique à rechercher des modèles dans de grandes bases de données de dossiers médicaux ou financiers. Aujourd’hui, c’est essentiellement impossible car les méthodes de confidentialité des données ne sont pas à l’échelle. “

Shrivastava et l’étudiant diplômé de Rice, Ben Coleman, espèrent changer cela avec une nouvelle méthode qu’ils présenteront cette semaine à CCS 2021, la conférence phare annuelle de l’Association for Computing Machinery sur la sécurité informatique et des communications. En utilisant une technique appelée hachage sensible à la localité, Shirvastava et Coleman ont découvert qu’ils pouvaient créer un petit résumé d’une énorme base de données d’enregistrements sensibles. Baptisée RACE, leur méthode tire son nom de ces résumés, ou croquis de « tableau répété d’estimateurs de comptage ».

Coleman a déclaré que les croquis RACE peuvent être rendus publics en toute sécurité et utiles pour les algorithmes qui utilisent des sommes de noyau, l’un des éléments de base de l’apprentissage automatique, et pour les programmes d’apprentissage automatique qui effectuent des tâches courantes telles que la classification, le classement et l’analyse de régression. Il a déclaré que RACE pourrait permettre aux entreprises à la fois de profiter des avantages de l’apprentissage automatique distribué à grande échelle et de maintenir une forme rigoureuse de confidentialité des données appelée confidentialité différentielle.

La confidentialité différentielle, qui est utilisée par plus d’un géant de la technologie, est basée sur l’idée d’ajouter du bruit aléatoire pour obscurcir les informations individuelles.

“Il existe aujourd’hui des techniques élégantes et puissantes pour répondre aux normes de confidentialité différentielles, mais aucune d’entre elles n’est à l’échelle”, a déclaré Coleman. « La surcharge de calcul et les besoins en mémoire augmentent de façon exponentielle à mesure que les données deviennent plus dimensionnelles. »

Les données sont de plus en plus dimensionnelles, ce qui signifie qu’elles contiennent à la fois de nombreuses observations et de nombreuses caractéristiques individuelles sur chaque observation.

RACE esquisse des échelles pour les données de grande dimension, a-t-il déclaré. Les croquis sont petits et les exigences de calcul et de mémoire pour les construire sont également faciles à répartir.

“Les ingénieurs d’aujourd’hui doivent sacrifier leur budget ou la vie privée de leurs utilisateurs s’ils souhaitent utiliser les sommes du noyau”, a déclaré Shrivastava. “RACE change l’économie de la publication d’informations de grande dimension avec une confidentialité différentielle. C’est simple, rapide et 100 fois moins coûteux à exécuter que les méthodes existantes.”

Il s’agit de la dernière innovation de Shrivasta et de ses étudiants, qui ont développé de nombreuses stratégies algorithmiques pour rendre l’apprentissage automatique et la science des données plus rapides et plus évolutifs. Eux et leurs collaborateurs ont : trouvé un moyen plus efficace pour les entreprises de médias sociaux d’empêcher la désinformation de se propager en ligne, découvert comment former des systèmes d’apprentissage en profondeur à grande échelle jusqu’à 10 fois plus rapidement pour les problèmes de « classification extrême », trouvé un moyen de et estimer efficacement le nombre de victimes identifiées tuées dans la guerre civile syrienne, a montré qu’il est possible de former des réseaux de neurones profonds jusqu’à 15 fois plus rapidement sur des processeurs à usage général (unités centrales de traitement) que des GPU (unités de traitement graphique), et a réduit le montant du temps requis pour la recherche de grandes bases de données métagénomiques.


Un modèle pour classer les textes financiers tout en protégeant la vie privée des utilisateurs


Plus d’information:
Benjamin Coleman et al, A One-Pass Private Sketch for Most Machine Learning Tasks, arXiv:2006.09352 [cs.DS], arxiv.org/abs/2006.09352

Fourni par l’Université Rice

Citation: La confidentialité des mégadonnées pour l’apprentissage automatique vient d’être 100 fois moins chère (2021, 16 novembre) récupéré le 16 novembre 2021 à partir de https://techxplore.com/news/2021-11-big-privacy-machine-cheaper.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.