Vers la reconnaissance vocale pour les langues parlées peu courantes

Vers la reconnaissance vocale pour les langues parlées peu courantes

PARP est une nouvelle technique qui réduit la complexité de calcul d’un modèle d’apprentissage automatique avancé afin qu’il puisse être appliqué pour effectuer une reconnaissance vocale automatisée pour des langues rares ou peu courantes, comme le wolof, qui est parlé par 5 millions de personnes en Afrique de l’Ouest. Crédit : José-Luis Olivares, MIT

La technologie de reconnaissance vocale automatisée est devenue plus courante avec la popularité des assistants virtuels comme Siri, mais bon nombre de ces systèmes ne fonctionnent bien qu’avec les 7 000 langues les plus parlées au monde.

Étant donné que ces systèmes n’existent généralement pas pour les langues moins courantes, les millions de personnes qui les parlent sont coupés de nombreuses technologies qui reposent sur la parole, des appareils domestiques intelligents aux technologies d’assistance et aux services de traduction.

Les progrès récents ont permis à des modèles d’apprentissage automatique d’apprendre les langues rares du monde, qui manquent de la grande quantité de parole transcrite nécessaire pour former des algorithmes. Cependant, ces solutions sont souvent trop complexes et coûteuses pour être largement appliquées.

Des chercheurs du MIT et d’ailleurs se sont maintenant attaqués à ce problème en développant une technique simple qui réduit la complexité d’un modèle avancé d’apprentissage de la parole, lui permettant de fonctionner plus efficacement et d’atteindre des performances plus élevées.

Leur technique consiste à supprimer les parties inutiles d’un modèle de reconnaissance vocale commun mais complexe, puis à effectuer des ajustements mineurs afin qu’il puisse reconnaître une langue spécifique. Étant donné que seuls de petits ajustements sont nécessaires une fois que le plus grand modèle est coupé à la taille, il est beaucoup moins coûteux et chronophage d’enseigner à ce modèle un langage peu commun.

Ces travaux pourraient contribuer à uniformiser les règles du jeu et à amener les systèmes de reconnaissance vocale automatique dans de nombreuses régions du monde où ils n’ont pas encore été déployés. Les systèmes sont importants dans certains environnements universitaires, où ils peuvent aider les étudiants aveugles ou malvoyants, et sont également utilisés pour améliorer l’efficacité dans les établissements de santé grâce à la transcription médicale et dans le domaine juridique grâce à la sténographie judiciaire. La reconnaissance vocale automatique peut également aider les utilisateurs à apprendre de nouvelles langues et à améliorer leurs compétences en prononciation. Cette technologie pourrait même être utilisée pour transcrire et documenter des langues rares menacées de disparition.

« Il s’agit d’un problème important à résoudre car nous disposons d’une technologie étonnante en matière de traitement du langage naturel et de reconnaissance vocale, mais poursuivre les recherches dans cette direction nous aidera à adapter la technologie à de nombreuses autres langues sous-explorées dans le monde », déclare Cheng-I Jeff Lai. , un doctorat étudiant au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT et premier auteur de l’article.

Lai a écrit l’article avec un autre doctorant du MIT. les étudiants Alexander H. Liu, Yi-Lun Liao, Sameer Khurana et Yung-Sung Chuang ; son conseiller et auteur principal James Glass, chercheur scientifique principal et chef du groupe sur les systèmes de langage parlé au CSAIL ; Yang Zhang, Shiyu Chang et Kaizhi Qian, chercheurs du MIT-IBM Watson AI Lab ; et David Cox, directeur IBM du MIT-IBM Watson AI Lab. La recherche sera présentée à la Conférence sur les systèmes de traitement de l’information neuronale en décembre.

Apprendre la parole à partir de l’audio

Les chercheurs ont étudié un puissant réseau de neurones qui a été pré-entraîné pour apprendre la parole de base à partir de l’audio brut, appelé Wave2vec 2.0.

Un réseau de neurones est une série d’algorithmes qui peuvent apprendre à reconnaître des modèles dans les données ; modelés vaguement sur le cerveau humain, les réseaux de neurones sont organisés en couches de nœuds interconnectés qui traitent les entrées de données.

Wave2vec 2.0 est un modèle d’apprentissage auto-supervisé, il apprend donc à reconnaître une langue parlée après avoir reçu une grande quantité de parole non étiquetée. Le processus de formation ne nécessite que quelques minutes de discours transcrit. Cela ouvre la porte à la reconnaissance vocale de langues rares qui manquent de grandes quantités de paroles transcrites, comme le wolof, qui est parlé par 5 millions de personnes en Afrique de l’Ouest.

Cependant, le réseau de neurones compte environ 300 millions de connexions individuelles, il nécessite donc une puissance de calcul énorme pour s’entraîner sur une langue spécifique.

Les chercheurs ont entrepris d’améliorer l’efficacité de ce réseau en l’élaguant. Tout comme un jardinier coupe les branches superflues, l’élagage du réseau de neurones consiste à supprimer les connexions qui ne sont pas nécessaires pour une tâche spécifique, dans ce cas, l’apprentissage d’une langue. Lai et ses collaborateurs voulaient voir comment le processus d’élagage affecterait les performances de reconnaissance vocale de ce modèle.

Après avoir élagué l’ensemble du réseau de neurones pour créer un sous-réseau plus petit, ils ont formé le sous-réseau avec une petite quantité de discours espagnol étiqueté, puis à nouveau avec le discours français, un processus appelé réglage fin.

« Nous nous attendrions à ce que ces deux modèles soient très différents car ils sont affinés pour différentes langues. Mais la partie surprenante est que si nous élaguons ces modèles, ils se retrouveront avec des modèles d’élagage très similaires. Pour le français et l’espagnol, ils ont 97 %. chevauchement », dit Lai.

Ils ont mené des expériences en utilisant 10 langues, des langues romanes comme l’italien et l’espagnol aux langues qui ont des alphabets complètement différents, comme le russe et le mandarin. Les résultats étaient les mêmes : les modèles affinés avaient tous un très grand chevauchement.

Une solution simple

S’appuyant sur cette découverte unique, ils ont développé une technique simple pour améliorer l’efficacité et augmenter les performances du réseau de neurones, appelée PARP (Prune, Adjust et Re-Prune).

Dans la première étape, un réseau neuronal de reconnaissance vocale pré-entraîné comme Wave2vec 2.0 est élagué en supprimant les connexions inutiles. Ensuite, dans la deuxième étape, le sous-réseau résultant est ajusté pour une langue spécifique, puis élagué à nouveau. Au cours de cette deuxième étape, les connexions qui avaient été supprimées sont autorisées à se développer à nouveau si elles sont importantes pour cette langue particulière.

Étant donné que les connexions sont autorisées à se développer au cours de la deuxième étape, le modèle n’a besoin d’être affiné qu’une seule fois, plutôt que sur plusieurs itérations, ce qui réduit considérablement la quantité de puissance de calcul requise.

Tester la technique

Les chercheurs ont mis le PARP à l’épreuve par rapport à d’autres techniques d’élagage courantes et ont découvert qu’il les surpassait tous pour la reconnaissance vocale. C’était particulièrement efficace lorsqu’il n’y avait qu’une très petite quantité de discours transcrit sur lequel s’entraîner.

Ils ont également montré que PARP peut créer un sous-réseau plus petit qui peut être affiné pour 10 langues à la fois, éliminant ainsi le besoin d’élaguer des sous-réseaux séparés pour chaque langue, ce qui pourrait également réduire les dépenses et le temps requis pour former ces modèles.

À l’avenir, les chercheurs aimeraient appliquer PARP aux modèles de synthèse vocale et voir également comment leur technique pourrait améliorer l’efficacité d’autres réseaux d’apprentissage en profondeur.

« Il existe un besoin croissant de mettre de grands modèles d’apprentissage en profondeur sur des appareils périphériques. Avoir des modèles plus efficaces permet à ces modèles d’être compressés sur des systèmes plus primitifs, comme les téléphones portables. La technologie vocale est très importante pour les téléphones portables, par exemple, mais avoir un Un modèle plus petit ne signifie pas nécessairement qu’il calcule plus rapidement. Nous avons besoin de technologies supplémentaires pour accélérer le calcul, il reste donc encore un long chemin à parcourir », a déclaré Zhang.

L’apprentissage auto-supervisé (SSL) change le domaine du traitement de la parole, donc rendre les modèles SSL plus petits sans dégrader les performances est une direction de recherche cruciale, déclare Hung-yi Lee, professeur agrégé au Département de génie électrique et au Département d’informatique et Ingénierie de l’information à l’Université nationale de Taiwan, qui n’était pas impliquée dans cette recherche.

« PARP réduit les modèles SSL et, en même temps, améliore étonnamment la précision de la reconnaissance. De plus, l’article montre qu’il existe un sous-réseau dans le modèle SSL, qui convient aux tâches ASR de nombreuses langues. Cette découverte stimulera la recherche sur le langage. /task agnostique élagage du réseau. En d’autres termes, les modèles SSL peuvent être compressés tout en maintenant leurs performances sur diverses tâches et langues », dit-il.


Reconnaissance vocale à l’aide de réseaux de neurones artificiels et d’optimisation de colonies d’abeilles artificielles


Plus d’information:
Cheng-I Jeff Lai et al, PARP : élaguer, ajuster et ré-élaguer pour la reconnaissance vocale auto-supervisée. arXiv:2106.05933v2 [cs.CL], arxiv.org/abs/2106.05933

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Vers la reconnaissance vocale pour les langues parlées peu communes (2021, 4 novembre) récupéré le 4 novembre 2021 sur https://techxplore.com/news/2021-11-speech-recognition-uncommon-spoken-languages.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.