Nouvelle méthode pour rendre les voix générées par l’IA plus expressives

Une nouvelle méthode pour rendre les voix générées par l'IA plus expressives

Crédit : Université de Californie – San Diego

Les chercheurs ont trouvé un moyen de rendre les voix générées par l’IA, telles que les assistants personnels numériques, plus expressives, avec un minimum de formation. La méthode, qui traduit le texte en parole, peut également être appliquée à des voix qui n’ont jamais fait partie de l’ensemble d’apprentissage du système.

L’équipe d’informaticiens et d’ingénieurs électriciens de l’Université de Californie à San Diego a présenté ses travaux lors de la conférence ACML 2021, qui s’est tenue en ligne récemment.

En plus des assistants personnels pour smartphones, maisons et voitures, la méthode pourrait aider à améliorer les voix off dans les films d’animation, la traduction automatique de la parole dans plusieurs langues, et plus encore. La méthode pourrait également aider à créer des interfaces vocales personnalisées qui autonomisent les personnes qui ont perdu la capacité de parler, semblable à la voix informatisée que Stephen Hawking utilisait pour communiquer, mais beaucoup plus expressive.

« Nous travaillons dans ce domaine depuis assez longtemps », a déclaré Shehzeen Hussain, un Ph.D. étudiant à l’UC San Diego Jacobs School of Engineering et l’un des principaux auteurs de l’article. « Nous voulions examiner le défi de non seulement synthétiser le discours, mais d’ajouter un sens expressif à ce discours. »

Les méthodes existantes échouent à ce travail de deux manières. Certains systèmes peuvent synthétiser un discours expressif pour un locuteur spécifique en utilisant plusieurs heures de données d’apprentissage pour ce locuteur. D’autres peuvent synthétiser la parole à partir de quelques minutes seulement de données vocales provenant d’un locuteur jamais rencontré auparavant ; mais ils ne sont pas capables de générer un discours expressif et ne traduisent que du texte en parole. En revanche, la méthode développée par l’équipe de l’UC San Diego est la seule qui peut générer avec un minimum d’entraînement un discours expressif pour un sujet qui n’a pas fait partie de son ensemble d’entraînement.

Les chercheurs ont signalé la hauteur et le rythme du discours dans des échantillons d’entraînement, comme indicateur d’émotion. Cela a permis à leur système de clonage de générer un discours expressif avec une formation minimale, même pour des voix qu’il n’avait jamais rencontrées auparavant.

« Nous démontrons que notre modèle proposé peut faire qu’une nouvelle voix exprime, emote, chante ou copie le style d’un discours de référence donné », écrivent les chercheurs.

Leur méthode peut apprendre la parole directement à partir du texte ; reconstruire un échantillon de parole à partir d’un locuteur cible ; et transférer la hauteur et le rythme de la parole d’un locuteur expressif différent en parole clonée pour le locuteur cible.

L’équipe est consciente que leur travail pourrait être utilisé pour rendre les vidéos deepfake et les clips audio plus précis et plus convaincants. En conséquence, ils prévoient de publier leur code avec un filigrane qui identifiera le discours créé par leur méthode comme cloné.

« Le clonage de voix expressives deviendrait une menace si vous pouviez créer des intonations naturelles », a déclaré Paarth Neekhara, l’autre auteur principal de l’article et titulaire d’un doctorat. étudiant en informatique à la Jacobs School. « Le défi le plus important à relever est la détection de ces médias et nous nous concentrerons sur cela ensuite. »

La méthode elle-même doit encore être améliorée. Il est biaisé envers les anglophones et a du mal avec les locuteurs avec un fort accent.


Pouvons-nous percevoir le genre à partir des voix des enfants ?


Plus d’information:
Paarth Neekhara et al, Clonage Neural Expressif de Voix. arXiv:2102.00151v1 [cs.SD], arxiv.org/abs/2102.00151

Exemples audio : expressivecloning.github.io/

Fourni par l’Université de Californie – San Diego

Citation: Nouvelle méthode pour rendre les voix générées par l’IA plus expressives (2022, 5 janvier) récupérée le 5 janvier 2022 sur https://techxplore.com/news/2022-01-method-ai-generated-voices.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.