Les risques d’attaques impliquant l’empoisonnement des données d’entraînement pour les modèles d’apprentissage automatique

Les risques d'attaques impliquant l'empoisonnement des données d'entraînement pour les modèles d'apprentissage automatique

Les attaques examinées par les chercheurs séparent les distributions des pertes des membres et des non-membres, ce qui les rend plus distinguables. Pour cinq exemples CIFAR-10 aléatoires, ce graphique trace la distribution des pertes (à l’échelle logit) sur un exemple, qu’il soit membre (rouge) ou non (bleu). L’axe horizontal varie en fonction du nombre de fois où l’adversaire empoisonne l’exemple. Crédit : Tramèr et al

Un nombre croissant d’études suggèrent que les algorithmes d’apprentissage automatique peuvent divulguer une quantité considérable d’informations incluses dans les données utilisées pour les entraîner à travers leurs paramètres de modèle et leurs prédictions. En conséquence, les utilisateurs malveillants ayant un accès général à l’algorithme peuvent dans de nombreux cas reconstruire et déduire des informations sensibles incluses dans l’ensemble de données de formation, allant de simples données démographiques aux numéros de compte bancaire.

Des chercheurs de Google, de l’Université nationale de Singapour, du Yale-NUS College et de l’Oregon State University ont récemment mené une étude évaluant les risques de ce type d’attaques, qui consistent essentiellement à “empoisonner” les modèles d’apprentissage automatique pour reconstruire les informations sensibles cachées dans leur paramètres ou prédictions. Leur article, pré-publié sur arXiv, met en évidence la nature alarmante de ces attaques et leur capacité à contourner les outils de confidentialité cryptographiques existants.

“Le fondement de la méthode de l’adversaire est un algorithme d’inférence, connu sous le nom d’attaque par inférence d’appartenance, qui détermine la probabilité qu’un enregistrement arbitraire ait fait partie de l’ensemble de formation”, a déclaré Reza Shokri, l’un des chercheurs qui a mené l’étude, à TechXplore. . “Les attaques par inférence contre ML constituent une menace sérieuse pour la confidentialité des données, car l’adversaire est un” utilisateur “légitime du système d’apprentissage automatique et n’a pas besoin de s’introduire dans un système pour accéder à des informations sensibles.”

Des études antérieures menées par les co-auteurs de l’article récent, ainsi que par d’autres équipes de recherche dans le monde, ont signalé les vulnérabilités en matière de confidentialité des algorithmes d’apprentissage automatique utilisés dans différents contextes, y compris les plates-formes ML-as-a-service, les outils d’apprentissage fédérés et les grands langages. des modèles. Dans la plupart des attaques identifiées dans ces articles précédents, à l’exception de celles impliquant des paramètres d’apprentissage fédérés, un adversaire ou un utilisateur malveillant peut effectuer des attaques par inférence tout en “observant” simplement le résultat du processus d’apprentissage (c’est-à-dire les étiquettes prédites par le modèle), mais il ne peut pas influencer le processus de formation.

Dans leur récent article, Shokri et ses collègues se sont spécifiquement concentrés sur la mise en œuvre d’algorithmes d’apprentissage automatique dans un environnement multipartite sécurisé. Dans ces cas, un modèle est formé sur une combinaison de données fournies indépendamment par différents individus, développeurs ou autres parties.

“Sur la base de travaux antérieurs sur le terrain, nous savions que le modèle final divulguerait des informations sur les données de formation fournies par toutes les parties”, a expliqué Shokri. “Cependant, ce que nous montrons dans cet article, c’est qu’une partie malveillante peut considérablement” augmenter “la fuite d’informations sur les données d’autres parties, en fournissant des données contradictoires et en empoisonnant le pool de données de formation.”

Essentiellement, Shokri et ses collègues ont montré qu’en “empoisonnant” les données d’entraînement, un utilisateur malveillant peut inciter un algorithme d’entraînement à “mémoriser” les données fournies par d’autres parties. Cela lui permet à son tour de reconstruire les données de sa victime à l’aide d’une série d’attaques par inférence. Les attaques par inférence sont des techniques d’exploration de données qui permettent aux utilisateurs d’acquérir de manière illégitime des connaissances sur une personne ou une entreprise au sein d’une base de données.

Dans leur article, les chercheurs ont spécifiquement évalué l’efficacité et le niveau de menace de trois types différents d’attaques par inférence, combinés à «l’empoisonnement» des données de formation. Ils ont d’abord examiné les attaques par inférence d’appartenance, qui permettent aux attaquants de déterminer si un enregistrement de données particulier faisait partie ou non de l’ensemble de données d’apprentissage.

“La raison pour laquelle ces attaques sont importantes est qu’elles nous permettent de quantifier la quantité d’informations que les modèles fuient sur les enregistrements de données individuels dans leur ensemble d’entraînement”, a déclaré Shokri. “Les attaques par inférence d’appartenance sont utilisées pour vérifier la confidentialité dans l’apprentissage automatique (par exemple, des outils tels que ML Privacy Meter).”

En plus des attaques par inférence d’appartenance, Shokri et ses collègues ont évalué l’efficacité des attaques de reconstruction et des attaques par inférence d’attribut. Ces deux sous-types d’attaques permettent aux adversaires de reconstruire partiellement les données d’entraînement.

“Par exemple, ces attaques peuvent permettre aux utilisateurs de générer des phrases qui se chevauchent de manière significative avec des phrases utilisées pour former un modèle de langage ou de compléter une phrase qui, par exemple, commence par le numéro de carte de crédit d’Aleph One est xxxxx, ou de déduire un attribut manquant sur un modèle partiellement connu. record (par exemple, déduire l’état civil d’Aleph One) “, a déclaré Shokri. “Ces attaques sont généralement basées sur des attaques par inférence d’appartenance (c’est-à-dire que les attaques par inférence d’appartenance sont utilisées comme tremplin pour exécuter des attaques de reconstruction).”

Shokri et ses collègues ont constaté que toutes les attaques par inférence qu’ils ont examinées ont connu un succès alarmant dans le scénario sur lequel ils se sont concentrés, dans lequel un utilisateur peut empoisonner un pool commun de données d’entraînement compilées par différents utilisateurs. Cela suggère que les outils de confidentialité cryptographiques existants pourraient ne pas être suffisants pour garantir la confidentialité des utilisateurs fournissant des données pour former des algorithmes d’apprentissage automatique.

“Ce que nous montrons, ce qui est un problème important, c’est que les points de données qui ne sont en moyenne pas divulgués par des attaques d’inférence régulières (sans empoisonnement) deviennent des ordres de grandeur plus vulnérables lorsqu’un adversaire est autorisé à empoisonner l’ensemble d’entraînement”, a déclaré Shokri. ajoutée. “Nos résultats jettent de sérieux doutes sur la pertinence des garanties de confidentialité cryptographique dans les protocoles de calcul multipartites pour l’apprentissage automatique. Nous travaillons actuellement à la conception de puissantes attaques par inférence afin de pouvoir fournir un audit de confidentialité précis pour l’apprentissage automatique.”


Des chercheurs développent un outil open source pour vérifier les fuites de données des systèmes d’IA


Plus d’information:
Florian Tramèr et al, Sérum de vérité : empoisonner les modèles de machine learning pour révéler leurs secrets. arXiv:2204.00032v1 [cs.CR]arxiv.org/abs/2204.00032

Reza Shokri et al, Attaques d’inférence d’adhésion contre les modèles d’apprentissage automatique. arXiv:1610.05820v2 [cs.CR]arxiv.org/abs/1610.05820

Milad Nasr et al, Analyse complète de la confidentialité de l’apprentissage en profondeur : attaques par inférence passives et actives en boîte blanche contre l’apprentissage centralisé et fédéré. arXiv:1812.00910v2 [stat.ML]arxiv.org/abs/1812.00910

Nicholas Carlini et al, Extraction de données d’entraînement à partir de grands modèles de langage. arXiv:2012.07805v2 [cs.CR]arxiv.org/abs/2012.07805

Christopher A. Choquette-Choo et al, Attaques par inférence d’appartenance à l’étiquette uniquement. arXiv:2007.14321v3 [cs.CR]arxiv.org/abs/2007.14321

© 2022 Réseau Science X

Citation: Les risques d’attaques qui impliquent l’empoisonnement des données d’entraînement pour les modèles d’apprentissage automatique (2022, 25 avril) récupéré le 25 avril 2022 sur https://techxplore.com/news/2022-04-involve-poisoning-machine.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.