Un cadre contrôlable par l’identité du locuteur pour la traduction automatique de la parole

Cela semble familier: un cadre contrôlable par l'identité du locuteur pour la traduction automatique de la parole

La conversion vocale est effectuée en sélectionnant l’intégration du haut-parleur cible à partir du livre de codes du haut-parleur. Les caractéristiques vocales peuvent être contrôlées indépendamment via les principaux composants de l’intégration des haut-parleurs. Crédits: Masato Akagi

Les robots d’aujourd’hui ont parcouru un long chemin depuis leur début en tant qu’êtres insensibles destinés principalement à l’assistance mécanique aux humains. Aujourd’hui, ils peuvent nous aider intellectuellement et même émotionnellement, de mieux en mieux imiter les humains conscients. Une partie intégrante de cette capacité est l’utilisation de la parole pour communiquer avec l’utilisateur (les assistants intelligents tels que Google Home et Amazon Echo en sont des exemples notables). Malgré ces développements remarquables, ils ne semblent toujours pas très «humains».

C’est là que la conversion vocale (VC) entre en jeu. Technologie utilisée pour modifier l’identité du locuteur de l’un à l’autre sans altérer le contenu linguistique, la VC peut rendre la communication homme-machine plus «  naturelle  » en modifiant les informations non linguistiques, comme ajouter de l’émotion à la parole. «Outre les informations linguistiques, les informations non linguistiques sont également importantes pour la communication naturelle (interhumaine). À cet égard, la CV peut réellement aider les gens à être plus sociables puisqu’ils peuvent obtenir plus d’informations à partir de la parole», explique le professeur Masato Akagi. du Japan Advanced Institute of Science and Technology (JAIST), qui travaille sur la perception et le traitement de la parole.

La parole, cependant, peut se produire dans une multitude de langues (par exemple, sur une plate-forme d’apprentissage des langues) et nous pourrions souvent avoir besoin d’une machine pour agir en tant que traducteur parole-parole. Dans ce cas, un modèle de CV conventionnel présente plusieurs inconvénients, comme le professeur Akagi et son doctorant au JAIST, Tuan Vu Ho, l’ont découvert lorsqu’ils ont essayé d’appliquer leur modèle de CV monolingue à une tâche de CV « cross-lingual » (CLVC). D’une part, la modification de l’identité du locuteur a conduit à une modification indésirable des informations linguistiques. De plus, leur modèle ne tenait pas compte des différences entre les langues dans le «contour F0», qui est une qualité importante pour la perception de la parole, F0 se référant à la fréquence fondamentale à laquelle les cordes vocales vibrent dans les sons vocaux. Cela ne garantissait pas non plus l’identité du locuteur souhaitée pour la parole de sortie.

Maintenant, dans une nouvelle étude publiée dans Accès IEEE, les chercheurs ont proposé un nouveau modèle adapté à CLVC qui permet à la fois l’imitation de la voix et le contrôle de l’identité du locuteur de la parole générée, marquant une amélioration significative par rapport à leur modèle VC précédent.

Plus précisément, le nouveau modèle applique l’intégration de la langue (mappage de texte en langage naturel, comme des mots et des phrases, à des représentations mathématiques) pour séparer les langues de l’individualité du locuteur et de la modélisation F0 avec contrôle du contour F0. En outre, il adopte un modèle de formation basé sur l’apprentissage en profondeur appelé réseau antagoniste générateur d’étoiles, ou StarGAN, en dehors de leur modèle d’autoencodeur variationnel (VAE) précédemment utilisé. En gros, un modèle VAE prend une entrée, la convertit en une représentation plus petite et dense, et la reconvertit en entrée d’origine, alors qu’un StarGAN utilise deux réseaux concurrents qui se poussent l’un l’autre pour générer des itérations améliorées jusqu’à ce que les échantillons de sortie soient indiscernables. des naturels.

Les chercheurs ont montré que leur modèle pouvait être formé de bout en bout avec une optimisation directe de l’intégration de la langue pendant la formation et permettait un bon contrôle de l’identité du locuteur. Le conditionnement F0 a également aidé à supprimer la dépendance linguistique de l’individualité du locuteur, ce qui a amélioré cette contrôlabilité.

Les résultats sont passionnants et le professeur Akagi envisage plusieurs perspectives d’avenir pour leur modèle CLVC. «Nos résultats ont des applications directes dans la protection de la vie privée de l’orateur en anonymisant son identité, en ajoutant un sentiment d’urgence à la parole pendant une urgence, la restauration de la voix post-chirurgicale, le clonage de voix de personnages historiques et en réduisant le coût de production des livres audio en créant une voix différente. caractères, pour n’en nommer que quelques-uns », commente-t-il. Il a l’intention d’améliorer encore la contrôlabilité de l’identité du locuteur dans les recherches futures.

Peut-être que le jour n’est pas loin où les appareils intelligents commencent à ressembler encore plus aux humains.


Traitement du signal vocal: amélioration des modèles de conversion vocale


Plus d’information:
Tuan Vu Ho et al, Conversion vocale multilingue avec individualité contrôlable des haut-parleurs à l’aide d’un autoencodeur variationnel et d’un réseau d’adversaire générateur d’étoiles, Accès IEEE (2021). DOI: 10.1109 / ACCESS.2021.3063519

Fourni par le Japan Advanced Institute of Science and Technology

Citation: Cela semble familier: Un cadre contrôlable par l’identité du locuteur pour la traduction automatique de la parole (2021, 26 avril) récupéré le 26 avril 2021 sur https://techxplore.com/news/2021-04-familiar-speaker-identity-controllable-framework-machine .html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.