Une nouvelle méthode détecte les vidéos deepfake avec une précision allant jusqu’à 99 %

Une nouvelle méthode détecte les vidéos deepfake avec une précision allant jusqu'à 99 %

Les première et deuxième colonnes montrent respectivement les images originales et celles manipulées. Les images en noir et blanc de la troisième colonne sont des masques GT binaires correspondants. Masques prédits (colonne 4) et CAM générés (colonne 5) pour les images manipulées à partir de l’ensemble de données Face2Face (ligne 1,2,3) et Neural-Textures (ligne 4,5,6). Crédit : Mazaheri & Roy-Chowdhury, 2022

Les informaticiens de l’UC Riverside peuvent détecter les expressions faciales manipulées dans les vidéos deepfake avec une plus grande précision que les méthodes de pointe actuelles. La méthode fonctionne également aussi bien que les méthodes actuelles dans les cas où l’identité faciale, mais pas l’expression, a été permutée, conduisant à une approche généralisée pour détecter tout type de manipulation faciale. Cette réalisation rapproche les chercheurs du développement d’outils automatisés pour détecter les vidéos manipulées contenant de la propagande ou de la désinformation.

L’évolution des logiciels de montage vidéo a permis d’échanger facilement le visage d’une personne contre une autre et de modifier les expressions des visages originaux. Alors que des dirigeants et des individus sans scrupules déploient des vidéos manipulées pour influencer les opinions politiques ou sociales, la capacité d’identifier ces vidéos est considérée par beaucoup comme essentielle pour protéger les démocraties libres. Il existe des méthodes qui peuvent détecter avec une précision raisonnable le moment où les visages ont été permutés. Mais identifier les visages dont seules les expressions ont été modifiées est plus difficile et à ce jour, aucune technique fiable n’existe.

“Ce qui rend le domaine de recherche sur les deepfakes plus difficile, c’est la concurrence entre la création, la détection et la prévention des deepfakes, qui deviendra de plus en plus féroce à l’avenir. Avec plus d’avancées dans les modèles génératifs, les deepfakes seront plus faciles à synthétiser et plus difficiles à distinguer des vrais, », a déclaré le co-auteur de l’article, Amit Roy-Chowdhury, professeur de génie électrique et informatique au Bourns College of Engineering.

La méthode UC Riverside divise la tâche en deux composants au sein d’un réseau neuronal profond. La première branche discerne les expressions faciales et transmet des informations sur les régions qui contiennent l’expression, telles que la bouche, les yeux ou le front, dans une seconde branche, appelée encodeur-décodeur. L’architecture codeur-décodeur est responsable de la détection et de la localisation des manipulations.

Le cadre, appelé Expression Manipulation Detection, ou EMD, peut à la fois détecter et localiser les régions spécifiques d’une image qui ont été modifiées.

“L’apprentissage multitâche peut tirer parti des caractéristiques importantes apprises par les systèmes de reconnaissance d’expression faciale pour bénéficier de la formation des systèmes de détection de manipulation conventionnels. Une telle approche permet d’obtenir des performances impressionnantes dans la détection de manipulation d’expression faciale”, a déclaré le doctorant Ghazal Mazaheri, qui a dirigé la recherche.

Les ensembles de données de référence pour la manipulation faciale sont basés sur l’expression et l’échange d’identité. On transfère les expressions d’une vidéo source sur une vidéo cible sans changer l’identité de la personne dans la vidéo cible. L’autre échange deux identités dans une seule vidéo.

Des expériences sur deux ensembles de données de manipulation faciale difficiles montrent qu’EMD a de meilleures performances dans la détection non seulement des manipulations d’expression faciale, mais également des échanges d’identité. EMD a détecté avec précision 99 % des vidéos manipulées.

L’article s’intitule “Détection et localisation des manipulations de l’expression faciale” et a été présenté à la conférence d’hiver 2022 sur les applications de la vision par ordinateur.


Ce réseau neuronal profond combat les deepfakes


Plus d’information:
Ghazal Mazaheri, Amit K. Roy-Chowdhury, Détection et localisation des manipulations de l’expression faciale. arXiv:2103.08134v1 [cs.CV]arxiv.org/abs/2103.08134

Fourni par Université de Californie – Riverside

Citation: Une nouvelle méthode détecte les vidéos deepfake avec une précision allant jusqu’à 99 % (4 mai 2022) récupéré le 4 mai 2022 sur https://techxplore.com/news/2022-05-method-deepfake-videos-accuracy.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.