Protéger la vision par ordinateur des attaques adverses

Protéger la vision par ordinateur des attaques adverses

Illustration montrant comment un attaquant pourrait amener un système de vision par ordinateur à mal classer les objets qu’il voit à travers la caméra. Mal étiqueter un objet peut ne pas être suffisant pour prendre une mauvaise décision, mais mal étiqueter plusieurs objets liés le fera. Crédit : Cai et al. 2022

Les progrès de la vision par ordinateur et de l’apprentissage automatique ont permis à un large éventail de technologies d’effectuer des tâches sophistiquées avec peu ou pas de supervision humaine. Des drones autonomes et des voitures autonomes à l’imagerie médicale et à la fabrication de produits, de nombreuses applications informatiques et robots utilisent des informations visuelles pour prendre des décisions critiques. Les villes comptent de plus en plus sur ces technologies automatisées pour la sécurité publique et l’entretien des infrastructures.

Cependant, par rapport aux humains, les ordinateurs voient avec une sorte de vision en tunnel qui les rend vulnérables aux attaques aux résultats potentiellement catastrophiques. Par exemple, un conducteur humain, voyant un graffiti recouvrant un panneau d’arrêt, le reconnaîtra quand même et arrêtera la voiture à une intersection. En revanche, les graffitis pourraient faire en sorte qu’une voiture autonome manque le panneau d’arrêt et traverse l’intersection. Et, alors que l’esprit humain peut filtrer toutes sortes d’informations visuelles inhabituelles ou superflues lors de la prise de décision, les ordinateurs se bloquent sur de minuscules écarts par rapport aux données attendues.

En effet, le cerveau est infiniment complexe et peut traiter simultanément une multitude de données et d’expériences passées pour arriver à des décisions presque instantanées adaptées à la situation. Les ordinateurs s’appuient sur des algorithmes mathématiques formés sur des ensembles de données. Leur créativité et leur cognition sont limitées par les limites de la technologie, des mathématiques et de la prévoyance humaine.

Les acteurs malveillants peuvent exploiter cette vulnérabilité en changeant la façon dont un ordinateur voit un objet, soit en modifiant l’objet lui-même ou un aspect du logiciel impliqué dans la technologie de vision. D’autres attaques peuvent manipuler les décisions prises par l’ordinateur concernant ce qu’il voit. L’une ou l’autre approche pourrait être synonyme de calamité pour les particuliers, les villes ou les entreprises.

Une équipe de chercheurs du Bourns College of Engineering de l’UC Riverside travaille sur les moyens de déjouer les attaques contre les systèmes de vision par ordinateur. Pour ce faire, Salman Asif, Srikanth Krishnamurthy, Amit Roy-Chowdhury et Chengyu Song déterminent d’abord quelles attaques fonctionnent.

“Les gens voudraient faire ces attaques parce qu’il y a beaucoup d’endroits où les machines interprètent les données pour prendre des décisions”, a déclaré Roy-Chowdhury, l’investigateur principal d’un programme DARPA AI Explorations récemment conclu appelé Techniques for Machine Vision Disruption. “Il pourrait être dans l’intérêt d’un adversaire de manipuler les données sur lesquelles la machine prend une décision. Comment un adversaire attaque-t-il un flux de données pour que les décisions soient erronées ?”

Un adversaire injecterait des logiciels malveillants dans le logiciel d’un véhicule autonome, par exemple, de sorte que lorsque des données arrivent de la caméra, elles sont légèrement perturbées. En conséquence, les modèles installés pour reconnaître un piéton échouent et le système hallucine un objet ou n’en voit pas un qui existe. Comprendre comment générer des attaques efficaces aide les chercheurs à concevoir de meilleurs mécanismes de défense.

“Nous cherchons à perturber une image afin que si elle est analysée par un système d’apprentissage automatique, elle soit mal catégorisée”, a déclaré Roy-Chowdhury. “Il existe deux façons principales de procéder : les deepfakes, où le visage ou les expressions faciales d’une personne dans une vidéo ont été modifiés de manière à tromper un humain, et les attaques contradictoires dans lesquelles un attaquant manipule la façon dont la machine prend une décision, mais un humain est généralement pas d’erreur. L’idée est que vous faites un très petit changement dans une image qu’un humain ne peut pas percevoir mais qu’un système automatisé le fera et fera une erreur.

Roy-Chowdhury, ses collaborateurs et leurs étudiants ont découvert que la majorité des mécanismes d’attaque existants visent à mal classer des objets et des activités spécifiques. Cependant, la plupart des scènes contiennent plusieurs objets et il existe généralement une relation entre les objets de la scène, ce qui signifie que certains objets se produisent plus fréquemment que d’autres.

Les personnes qui étudient la vision par ordinateur appellent cette cooccurrence « contexte ». Les membres du groupe ont montré comment concevoir des attaques contextuelles qui modifient les relations entre les objets de la scène.

“Par exemple, une table et une chaise sont souvent vues ensemble. Mais un tigre et une chaise sont rarement vus ensemble. Nous voulons manipuler tout cela ensemble”, a déclaré Roy-Chowdhury. “Vous pouvez remplacer le panneau d’arrêt par un panneau de limitation de vitesse et supprimer le passage pour piétons. Si vous avez remplacé le panneau d’arrêt par un panneau de limitation de vitesse mais que vous avez quitté le passage pour piétons, l’ordinateur d’une voiture autonome pourrait toujours le reconnaître comme une situation où il il faut arrêter.”

Plus tôt cette année, lors de la conférence de l’Association pour l’avancement de l’intelligence artificielle, les chercheurs ont montré que pour qu’une machine prenne une mauvaise décision, il ne suffit pas de manipuler un seul objet. Le groupe a développé une stratégie pour concevoir des attaques contradictoires qui modifient plusieurs objets simultanément de manière cohérente.

“Notre idée principale était que les attaques de transfert réussies nécessitent une manipulation holistique de la scène. Nous apprenons un graphique de contexte pour guider notre algorithme sur les objets à cibler pour tromper le modèle de la victime, tout en maintenant le contexte global de la scène”, a déclaré Salman Asif.

Dans un article présenté cette semaine à la conférence Conference on Computer Vision and Pattern Recognition, les chercheurs, ainsi que leurs collaborateurs de PARC, une division de recherche de la société Xerox, approfondissent ce concept et proposent une méthode où l’attaquant n’avait pas accès au système informatique de la victime. Ceci est important car à chaque intrusion l’attaquant risque d’être détecté par la victime et de se défendre contre l’attaque. Les attaques les plus réussies sont donc probablement celles qui ne sondent pas du tout le système de la victime, et il est crucial d’anticiper et de concevoir des défenses contre ces attaques “zero-query”.

L’année dernière, le même groupe de chercheurs a exploité les relations contextuelles dans le temps pour concevoir des attaques contre des séquences vidéo. Ils ont utilisé des transformations géométriques pour concevoir des attaques très efficaces sur les systèmes de classification vidéo. L’algorithme conduit à des perturbations réussies en étonnamment peu de tentatives. Par exemple, les exemples contradictoires générés à partir de cette technique ont de meilleurs taux de réussite des attaques avec 73 % de tentatives en moins par rapport aux méthodes de pointe pour les attaques vidéo contradictoires. Cela permet des attaques plus rapides avec beaucoup moins de sondes dans le système victime. Cet article a été présenté lors de la première conférence sur l’apprentissage automatique, Neural Information Processing Systems 2021.

Le fait que les attaques adverses sensibles au contexte soient beaucoup plus puissantes sur les images naturelles avec plusieurs objets que celles existantes qui se concentrent principalement sur les images avec un seul objet dominant ouvre la voie à des défenses plus efficaces. Ces défenses peuvent prendre en compte les relations contextuelles entre les objets dans une image, ou même entre les objets à travers une scène dans les images par plusieurs caméras. Cela offre un potentiel pour le développement de systèmes beaucoup plus sécurisés à l’avenir.


Des chercheurs développent un “vaccin” contre les attaques contre l’apprentissage automatique


Plus d’information:
Zikui Cai et al, Attaques de transfert sensibles au contexte pour la détection d’objets. arXiv:2112.03223v1 [cs.CV]arxiv.org/pdf/2112.03223.pdf

Zikui Cai et al, Zero-Query Transfer Attacks on Context-Aware Object Detectors. arXiv:2203.15230v1 [cs.CV]arxiv.org/pdf/2203.15230.pdf

Shasha Li et al, Attaques contradictoires sur les classificateurs vidéo Black Box : Tirer parti de la puissance des transformations géométriques. arXiv:2110.01823v2 [cs.CV]arxiv.org/pdf/2110.01823.pdf

Fourni par Université de Californie – Riverside

Citation: Protéger la vision par ordinateur des attaques adverses (17 juin 2022) récupéré le 17 juin 2022 sur https://techxplore.com/news/2022-06-vision-adversarial.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.