Algorithmes de copie vocale trouvés capables de duper les appareils de reconnaissance vocale

Alexa

Crédit : Pixabay/CC0 domaine public

Une équipe de chercheurs de l’Université de Chicago a découvert que les algorithmes de copie vocale ont progressé au point qu’ils sont désormais capables de tromper les appareils de reconnaissance vocale et, dans de nombreux cas, les personnes qui les écoutent. Le groupe a publié un article sur le serveur de préimpression arXiv qui décrit deux algorithmes de copie vocale bien connus.

Les vidéos Deepfake sont bien connues ; de nombreux exemples de ce qui ne semble être que des célébrités peuvent être vus régulièrement sur YouTube. Mais alors que ces vidéos sont devenues réalistes et convaincantes, un domaine où elles échouent est la reproduction de la voix d’une personne. Dans ce nouvel effort, l’équipe de l’UoC a trouvé des preuves que la technologie a progressé. Ils ont testé deux des algorithmes de copie vocale les plus connus contre des appareils de reconnaissance humaine et vocale et ont constaté que les algorithmes se sont améliorés au point qu’ils sont désormais capables de tromper les deux.

Les deux algorithmes, SV2TTS et AutoVC, ont été testés en obtenant des échantillons d’enregistrements vocaux à partir de bases de données accessibles au public. Les deux systèmes ont été formés à l’aide de 90 extraits de voix de cinq minutes de personnes parlant. Ils ont également demandé l’aide de 14 bénévoles qui ont fourni des échantillons vocaux et l’accès à leurs appareils de reconnaissance vocale. Les chercheurs ont ensuite testé les deux systèmes à l’aide du logiciel open source Resemblyzer – il écoute et compare les enregistrements vocaux, puis attribue une note basée sur deux échantillons similaires. Ils ont également testé les algorithmes en les utilisant pour tenter d’accéder à des services sur des appareils de reconnaissance vocale.

Les chercheurs ont découvert que les algorithmes étaient capables de tromper le Resemblyzer près de la moitié du temps. Ils ont également découvert qu’ils étaient capables de tromper Azure (le service de cloud computing de Microsoft) environ 30 % du temps. Et ils ont réussi à tromper le système de reconnaissance vocale Alexa de Google environ 62 % du temps.

Deux cents volontaires ont également écouté des paires d’enregistrements et ont essayé de déterminer si les voix provenaient de la même personne – les résultats étaient mitigés, mais dans l’ensemble, les algorithmes étaient capables de tromper les volontaires le plus souvent – et surtout lorsque la voix échantillonne étaient des personnages célèbres.







Deep Voice amélioré peut imiter n’importe quelle voix en quelques secondes


Plus d’information:
Emily Wenger et al, « Hello, It’s Me »: Attaques de synthèse vocale basées sur l’apprentissage profond dans le monde réel. arXiv : 2109.09598v1 [cs.CR], arxiv.org/abs/2109.09598

© 2021 Réseau Science X

Citation: Algorithmes de copie vocale trouvés capables de duper les appareils de reconnaissance vocale (2021, 13 octobre) récupérés le 13 octobre 2021 à partir de https://techxplore.com/news/2021-10-voice-algorithms-dupe-recognition-devices.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.