Identifier les faux enregistrements vocaux

cassette audio

Crédit : Pixabay/CC0 domaine public

Les machines peuvent utiliser l’intelligence artificielle pour créer des photos ou des enregistrements vocaux qui ressemblent ou ressemblent à ceux de la vie réelle. Des chercheurs de l’Institut Horst Görtz pour la sécurité informatique de la Ruhr-Universität Bochum s’intéressent à la manière dont ces données générées artificiellement, appelées deepfakes, peuvent être distinguées des données réelles. Ils ont découvert que les enregistrements vocaux réels et faux diffèrent dans les hautes fréquences. À ce jour, les deepfakes avaient principalement été analysés dans des fichiers images. Les nouvelles découvertes devraient aider à reconnaître les faux enregistrements linguistiques à l’avenir.

Joel Frank de la Chaire pour la sécurité des systèmes et Lea Schönherr du groupe Cognitive Signal Processing ont présenté leurs résultats le 7 décembre 2021 lors de la Conférence sur les systèmes de traitement de l’information neuronale, qui s’est tenue en ligne. Leurs recherches ont été menées dans le cadre du cluster d’excellence CASA – La cybersécurité à l’ère des adversaires à grande échelle.

Grand ensemble de données deepfake généré

Dans un premier temps, Joel Frank et Lea Schönherr ont compilé un vaste ensemble de données avec environ 118 000 enregistrements vocaux générés artificiellement. Cela a produit environ 196 heures de matériel en anglais et en japonais. « Un tel ensemble de données pour les deepfakes audio n’existait pas auparavant », explique Lea Schönherr. « Mais pour améliorer les méthodes de détection des faux fichiers audio, vous avez besoin de tout ce matériel. » Pour s’assurer que l’ensemble de données est aussi diversifié que possible, l’équipe a utilisé six algorithmes d’intelligence artificielle différents lors de la génération des extraits audio.

Les chercheurs ont ensuite comparé les fichiers audio artificiels avec des enregistrements de paroles réelles. Ils ont tracé les fichiers sous forme de spectrogrammes montrant la distribution des fréquences dans le temps. La comparaison a révélé des différences subtiles dans les hautes fréquences entre les vrais et les faux fichiers.

Sur la base de ces découvertes, Frank et Schönherr ont développé des algorithmes qui peuvent faire la distinction entre les deepfakes et la vraie parole. Ces algorithmes sont conçus comme un point de départ pour que d’autres chercheurs développent de nouvelles méthodes de détection.


Reconnaître les fausses images à l’aide de l’analyse de fréquence


Plus d’information:
Joel Frank, Lea Schönherr, WaveFake : Un ensemble de données pour faciliter la détection audio Deepfake. arXiv:2111.02813v1 [cs.LG], arxiv.org/abs/2111.02813

Fourni par Ruhr-Universitaet-Bochum

Citation: Identification de faux enregistrements vocaux (2021, 20 décembre) récupéré le 20 décembre 2021 sur https://techxplore.com/news/2021-12-fake-voice.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.