La course pour sauver les langues autochtones grâce à la reconnaissance vocale automatique

La course pour sauver les langues autochtones grâce à la reconnaissance vocale automatique

Illustration photo d’un texte kwak’wala écrit par l’instructeur clinique du Nord-Est Michael Running Wolf. Crédit : Alyssa Stone/Université Northeastern

Michael Running Wolf a toujours cette vieille calculatrice graphique TI-89 qu’il utilisait au lycée et qui l’a aidé à s’intéresser à la technologie.

« À l’époque, mes professeurs ont vu que cela m’intéressait vraiment », explique Running Wolf, professeur clinique d’informatique à la Northeastern University. « En fait, quelques-uns d’entre eux ont imprimé des centaines de pages d’instructions pour moi sur la façon de coder » l’appareil afin qu’il puisse jouer à des jeux.

Ce que Running Wolf, qui a grandi dans un village reculé de Cheyenne à Birney, Montana, n’a pas réalisé à l’époque, penché sur la pile d’impressions à la maison à la lumière des lampes à pétrole, c’est qu’il s’enseignait en fait la programmation de base.

« Je pensais que j’apprenais juste à mettre des jeux informatiques sur ma calculatrice », dit Running Wolf en riant.

Mais ce n’était pas sa première rencontre avec la technologie. Ayant grandi dans les plaines venteuses près de la réserve indienne des Cheyennes du Nord, Running Wolf dit que bien que sa famille – qui est en partie Cheyenne, en partie Lakota – n’ait pas accès quotidiennement à l’eau courante ou à l’électricité, parfois, lorsque les vents se sont calmés, le le courant scintillait, et il branchait sa console Atari et jouait à des jeux avec ses sœurs.

Ces premières expériences stimuleraient un intérêt permanent pour les ordinateurs, l’intelligence artificielle et le génie logiciel que Running Wolf exploite maintenant pour aider à réveiller les langues autochtones menacées d’extinction en Amérique du Nord et du Sud, dont certaines sont si gravement menacées d’extinction que leurs décomptes de les locuteurs natifs vivants sont tombés à un seul chiffre.

L’objectif de Running Wolf est de développer des méthodes pour documenter et maintenir ces premières langues grâce à un logiciel de reconnaissance vocale automatique, en aidant à les garder « vivantes » et bien documentées. Ce serait un processus, dit-il, que les communautés tribales et indigènes pourraient utiliser pour compléter leurs propres efforts de récupération de la langue, qui se sont intensifiés ces dernières années au milieu des menaces qui pèsent sur les langues.

« Le plan grandiose, le rêve lointain, est que nous pouvons créer une technologie non seulement pour préserver, mais aussi pour reconquérir les langues », déclare Running Wolf, qui enseigne l’informatique au campus Northeastern de Vancouver. « La préservation n’est pas ce que nous voulons. C’est comme prendre quelque chose, l’embaumer et le mettre dans un musée. Les langues sont des êtres vivants. »

La meilleure chose à dire, c’est qu’ils se sont « endormis », dit Running Wolf.

Et les menaces qui pèsent sur les langues autochtones sont réelles. Sur les quelque 6 700 langues parlées dans le monde, environ 40 % risquent de disparaître à jamais, selon l’Atlas des langues en danger de l’UNESCO. La perte de ces langues représente également la perte de systèmes entiers de connaissances propres à une culture et la capacité de transmettre ces connaissances à travers les générations.

Bien que la situation semble désastreuse – et l’est dans de nombreux cas – Running Wolf affirme que presque toutes les tribus amérindiennes sont engagées dans des efforts de récupération de la langue. En Nouvelle-Angleterre, une tribu notable qui le fait est la tribu Mashpee Wampanoag, dont la langue maternelle est maintenant enseignée dans les écoles publiques de Cape Cod, dans le Massachusetts.

Mais le problème, dit-il, est que dans le domaine en constante évolution de la linguistique informatique, peu de recherches ont été consacrées aux langues amérindiennes. Cela est en partie dû à un manque de données linguistiques, mais c’est aussi parce que de nombreuses langues maternelles sont « polysynthétiques », ce qui signifie qu’elles contiennent des mots qui comprennent de nombreux morphèmes, qui sont les plus petites unités de sens de la langue, explique Running Wolf.

Les langues polysynthétiques ont souvent des mots très longs, des mots qui peuvent signifier une phrase entière ou dénoter la valeur d’une phrase.

Pour compliquer davantage l’effort, de nombreuses langues amérindiennes n’ont pas d’orthographe ou d’alphabet, dit-il. En termes de ce dont les langues ont besoin pour les maintenir à flot, Running Wolf maintient que les orthographes ne sont pas vitales. De nombreuses langues autochtones ont survécu grâce à une forte tradition orale au lieu d’une solide tradition écrite.

Mais pour les chercheurs qui cherchent à créer des bases de données et des méthodes de transcription, comme Running Wolf, les textes écrits sont importants pour combler les lacunes. Ce qui empêche les chercheurs de construire une reconnaissance vocale automatique pour les langues autochtones, c’est précisément le manque de données audio et textuelles à leur disposition.

En utilisant des centaines d’heures d’audio de diverses tribus, Running Wolf a réussi à produire des résultats rudimentaires. Jusqu’à présent, le logiciel de reconnaissance vocale automatique que lui et son équipe ont développé peut reconnaître des mots simples et simples de certaines des langues indigènes pour lesquelles ils disposent de données.

« En ce moment, nous construisons un corpus d’audio et de textes pour commencer à montrer les premiers résultats », explique Running Wolf.

Surtout, dit-il, « je pense que nous avons une approche qui est scientifiquement solide. »

Finalement, Running Wolf dit qu’il espère créer un moyen pour les tribus de fournir à leurs jeunes des outils pour apprendre ces langues anciennes par le biais d’une immersion technologique, à travers des choses comme la réalité augmentée ou virtuelle, dit-il.

Certaines de ces technologies sont déjà en cours de développement par Running Wolf et son équipe, composée d’un linguiste, d’un data scientist, d’un ingénieur en apprentissage automatique et de sa femme, qui était entre autres responsable de programme. Toute la recherche et le développement en cours sont effectués en consultation avec de nombreuses communautés tribales, explique Running Wolf.

« Tout vient du peuple », dit-il. « Ils veulent travailler avec nous, et nous faisons de notre mieux pour respecter leurs systèmes de connaissances. »


L’extinction de la langue entraîne la perte de connaissances médicales uniques


Fourni par l’Université du Nord-Est

Citation: La course pour sauver les langues autochtones grâce à la reconnaissance vocale automatique (2021, 11 octobre) récupéré le 11 octobre 2021 sur https://techxplore.com/news/2021-10-indigenous-languages-automatic-speech-recognition.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.