La technologie vocale pour le reste du monde

base de données

Crédit : CC0 Domaine Public

Les technologies vocales telles que Siri sont passées d’une nouveauté à une façon routinière d’interagir avec la technologie au cours de la dernière décennie. Dans les années à venir, nos appareils ne feront que devenir plus bavards à mesure que le marché des applications, technologies et services vocaux continue de se développer.

Mais la croissance de la technologie vocale n’est pas universelle. Pour une grande partie du monde, la technologie reste désespérément silencieuse.

« La parole est un moyen naturel pour les gens d’interagir avec les appareils, mais nous n’en avons pas encore réalisé tout le potentiel, car une grande partie du monde est exclue de ces technologies », a déclaré Mark Mazumder, un doctorat. étudiant à la Harvard John A. Paulson School of Engineering and Applied Sciences (SEAS) et à la Graduate School of Arts and Sciences.

Le défi, ce sont les données. Les assistants vocaux tels que Siri d’Apple ou Alexa d’Amazon ont besoin de milliers, voire de millions d’exemples uniques pour reconnaître des mots-clés individuels tels que « light » ou « off ». Construire ces énormes ensembles de données est incroyablement coûteux et chronophage, interdisant à toutes les entreprises, à l’exception des plus grandes, de développer des interfaces de reconnaissance vocale.

Même des entreprises comme Apple et Google ne forment leurs modèles que sur une poignée de langues, empêchant des centaines de millions de personnes d’interagir avec leurs appareils via la voix. Vous voulez créer une application vocale pour les près de 50 millions de locuteurs haoussas d’Afrique de l’Ouest ? Oublie. Ni Siri, Alexa ni Google Home ne prennent actuellement en charge une seule langue africaine.

Mais Mazumder et une équipe de chercheurs de SEAS, en collaboration avec des chercheurs de l’Université du Michigan, Intel, NVIDIA, Landing AI, Google, MLCommons et Coqui, élaborent une solution pour apporter la technologie vocale au reste du monde.

Lors de la conférence Neural Information Processing Systems la semaine dernière, l’équipe a présenté un ensemble de données vocales multilingue et diversifié qui couvre les langues parlées par plus de 5 milliards de personnes. Surnommé le corpus de mots parlés multilingues, l’ensemble de données contient plus de 340 000 mots-clés dans 50 langues avec plus de 23,4 millions d’exemples audio à ce jour.

« Nous avons construit un pipeline d’automatisation des ensembles de données qui peut identifier et extraire automatiquement des mots-clés et les synthétiser dans un ensemble de données », a déclaré Vijay Janapa Reddi, professeur agrégé de génie électrique à SEAS et auteur principal de l’étude. « Le corpus de mots parlés multilingues fait progresser la recherche et le développement d’applications vocales destinées à un large public mondial. »

« La technologie de la parole peut habiliter des milliards de personnes à travers la planète, mais il existe un réel besoin d’ensembles de données vastes, ouverts et diversifiés pour catalyser l’innovation », a déclaré David Kanter, cofondateur et directeur exécutif de MLCommons et co-auteur de l’étude. « Le corpus de mots parlés multilingues offre une vaste gamme de langues. Je suis ravi que ces ensembles de données améliorent les expériences quotidiennes telles que les appareils grand public à commande vocale et la reconnaissance vocale. »

Pour créer l’ensemble de données, l’équipe a utilisé des enregistrements de Mozilla Common Voice, un projet mondial massif qui collecte des enregistrements vocaux donnés dans une grande variété de langues parlées, y compris des langues avec une plus petite population de locuteurs. Sur le site Web de Common Voice, les orateurs bénévoles reçoivent une phrase à lire à haute voix dans la langue de leur choix. Un autre groupe de volontaires écoute les phrases enregistrées et vérifie leur exactitude.

Les chercheurs ont appliqué un algorithme d’apprentissage automatique capable de reconnaître et d’extraire des mots-clés à partir de phrases enregistrées dans Common Voice.

Par exemple, une phrase d’invite de Common Voice se lit comme suit : « Il a joué au football universitaire au Texas et à Rice ».

Tout d’abord, l’algorithme utilise une technique d’apprentissage machine courante appelée alignement forcé, en particulier un outil appelé Montreal Forced Aligner, pour faire correspondre les mots prononcés avec le texte. Ensuite, l’algorithme filtre et extrait les mots de trois caractères ou plus (ou deux caractères en chinois). À partir de la phrase ci-dessus, l’algorithme tirerait « joué » « collège » « football » « Texas » « et » et « Rice ». Pour ajouter le mot à l’ensemble de données, l’algorithme doit trouver au moins cinq exemples du mot, ce qui garantit que tous les mots ont plusieurs exemples de prononciation.

L’algorithme optimise également l’équilibre entre les sexes et le chevauchement minimal des locuteurs entre les échantillons utilisés pour la formation et l’évaluation des modèles de détection de mots clés.

« Notre objectif était de créer un large corpus de mots très courants », a déclaré Mazumder, qui est le premier auteur de l’étude. « Donc, si vous voulez former un modèle pour les lumières intelligentes en tamoul, par exemple, vous utiliserez probablement notre ensemble de données pour extraire les mots-clés « lumière », « on », « off » et « dim » et pouvoir en trouver assez exemples pour entraîner le modèle. »

« Nous voulons créer l’équivalent vocal de la recherche Google pour le texte et les images », a déclaré Reddi. « Un moteur de recherche d’ensembles de données qui peut aller chercher ce que vous voulez, quand vous le voulez à la volée, plutôt que de s’appuyer sur des ensembles de données statiques qui sont coûteux et fastidieux à créer. »

Lorsque les chercheurs ont comparé la précision des modèles formés sur leur ensemble de données à des modèles formés sur un ensemble de données Google qui a été construit manuellement en recherchant soigneusement des mots individuels et spécifiques, l’équipe n’a trouvé qu’un petit écart de précision entre les deux.

Pour la plupart des 50 langues, le corpus de mots parlés multilingues est le premier ensemble de données de mots-clés disponible et gratuit pour un usage commercial. Pour plusieurs langues, telles que le mongol, le sakha et le hakha chin, il s’agit du premier ensemble de données de repérage par mot-clé dans la langue.

« Ce n’est que le début », a déclaré Reddi. « Notre objectif est de créer une base de données de 1 000 mots dans 1 000 langues différentes. »

« Que ce soit sur Common Voice ou YouTube, Wikicommons, archive.org ou tout autre site Creative Commons, il y a tellement plus de données que nous pouvons extraire pour créer cet ensemble de données et étendre la diversité des langues pour les interfaces vocales « , a déclaré Mazumder. « Les interfaces vocales peuvent rendre la technologie plus accessible aux utilisateurs ayant des déficiences visuelles ou physiques, ou pour les utilisateurs peu alphabétisés. Nous espérons que des ensembles de données gratuits comme le nôtre aideront les développeurs de technologies d’assistance à répondre à ces besoins.

Le corpus est disponible sur MLCommons, un consortium d’ingénierie ouvert à but non lucratif dédié à l’amélioration de l’apprentissage automatique pour tous. Reddi est vice-président et membre du conseil d’administration de MLCommons.


L’initiative Mozilla aide les acteurs de la technologie vocale via un ensemble de données multilingue


Plus d’information:
Présentation : datasets-benchmarks-proeeding … ae2-Paper-round2.pdf

Ensemble de données : mlcommons.org/en/multilingual-spoken-words/

Fourni par Harvard John A. Paulson School of Engineering and Applied Sciences

Citation: Technologie vocale pour le reste du monde (2021, 17 décembre) récupéré le 17 décembre 2021 sur https://techxplore.com/news/2021-12-voice-technology-rest-world.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.