Une méthode d’apprentissage automatique hallucine pour une meilleure traduction de texte

Hallucinant pour une meilleure traduction de texte |  Nouvelles du MIT

Présentation de l’architecture VALHALLA pour la traduction automatique. A gauche : Pipeline de formation de VALHALLA. Les sorties de traduction sont rassemblées à partir de deux flux d’entrée, soit avec des jetons visuels de vérité au sol z, soit avec une représentation hallucinée zˆ, et optimisées sur une combinaison d’hallucinations, de traduction et de pertes de cohérence. À droite : processus d’inférence de VALHALLA en l’absence d’entrées visuelles. Crédit : Li et al

En tant que bébés, nous babillons et imitons notre façon d’apprendre les langues. Nous ne commençons pas par lire du texte brut, ce qui nécessite une connaissance et une compréhension fondamentales du monde, ainsi qu’une capacité avancée à interpréter et à déduire des descriptions et des relations. Au contraire, les humains commencent lentement leur voyage linguistique, en pointant et en interagissant avec notre environnement, en basant nos mots et en percevant leur signification à travers le contexte du monde physique et social. Finalement, nous pouvons créer des phrases complètes pour communiquer des idées complexes.

De même, lorsque les humains commencent à apprendre et à traduire dans une autre langue, l’incorporation d’autres informations sensorielles, comme le multimédia, associées à des mots nouveaux et inconnus, comme des flashcards avec des images, améliore l’acquisition et la rétention du langage. Ensuite, avec suffisamment de pratique, les humains peuvent traduire avec précision de nouvelles phrases invisibles dans leur contexte sans les médias qui les accompagnent ; cependant, imaginer une image basée sur le texte original aide.

C’est la base d’un nouveau modèle d’apprentissage automatique, appelé VALHALLA, par des chercheurs du MIT, d’IBM et de l’Université de Californie à San Diego, dans lequel un réseau neuronal formé voit une phrase source dans une langue, hallucine une image de ce qu’elle ressemble, puis utilise les deux pour traduire dans une langue cible. L’équipe a constaté que leur méthode démontre une meilleure précision de la traduction automatique par rapport à la traduction de texte uniquement. De plus, cela a fourni un coup de pouce supplémentaire pour les cas avec de longues phrases, des langues manquant de ressources et des cas où une partie de la phrase source est inaccessible au traducteur automatique.

En tant que tâche essentielle dans le domaine de l’IA du traitement du langage naturel (TAL), la traduction automatique est une “technologie éminemment pratique qui est utilisée par des millions de personnes chaque jour”, déclare le co-auteur de l’étude Yoon Kim, professeur adjoint au département d’électricité du MIT. Ingénierie et informatique avec des affiliations au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et au MIT-IBM Watson AI Lab. Avec les progrès récents et significatifs de l’apprentissage en profondeur, “il y a eu un développement intéressant dans la façon dont on pourrait utiliser des informations non textuelles – par exemple, des images, de l’audio ou d’autres informations de base – pour s’attaquer à des tâches pratiques impliquant le langage”, explique Kim, car ” lorsque les humains effectuent des tâches de traitement du langage, nous le faisons dans un monde ancré et situé.” L’association d’images et de texte hallucinés lors de l’inférence, a postulé l’équipe, imite ce processus, fournissant un contexte pour des performances améliorées par rapport aux techniques de pointe actuelles, qui utilisent uniquement des données textuelles.

Cette recherche sera présentée à la conférence IEEE / CVF Computer Vision and Pattern Recognition ce mois-ci. Les co-auteurs de Kim sont l’étudiant diplômé de l’UC San Diego Yi Li et le professeur Nuno Vasconcelos, ainsi que les membres du personnel de recherche Rameswar Panda, Chun-fu “Richard” Chen, Rogerio Feris et le directeur d’IBM David Cox d’IBM Research et du MIT-IBM Watson Laboratoire d’IA.

Apprendre à halluciner à partir d’images

Lorsque nous apprenons de nouvelles langues et que nous traduisons, nous recevons souvent des exemples et de la pratique avant de nous aventurer seuls. Il en va de même pour les systèmes de traduction automatique ; Cependant, si des images sont utilisées pendant la formation, ces méthodes d’IA nécessitent également des aides visuelles pour les tests, ce qui limite leur applicabilité, explique Panda.

“Dans les scénarios du monde réel, vous pourriez ne pas avoir d’image par rapport à la phrase source. Donc, notre motivation était essentiellement : au lieu d’utiliser une image externe pendant l’inférence comme entrée, pouvons-nous utiliser l’hallucination visuelle – la capacité d’imaginer des scènes visuelles —pour améliorer les systèmes de traduction automatique ?” dit Panda.

Pour ce faire, l’équipe a utilisé une architecture d’encodeur-décodeur à deux transformateurs, un type de modèle de réseau neuronal adapté aux données dépendant de la séquence, comme le langage, qui peut prêter attention aux mots clés et à la sémantique d’une phrase. Un transformateur génère une hallucination visuelle et l’autre effectue une traduction multimodale en utilisant les sorties du premier transformateur.

Hallucinant pour une meilleure traduction de texte |  Nouvelles du MIT

Le contexte visuel tel que les images a été exploité dans la conception de meilleurs systèmes de traduction automatique. Différent de la plupart des méthodes existantes qui nécessitent des paires phrase-image annotées manuellement comme entrée lors de l’inférence, nous introduisons VALHALLA, qui exploite la représentation visuelle hallucinée des phrases sources au moment du test pour une traduction automatique améliorée. Crédit : Li et al

Pendant la formation, il y a deux flux de traduction : une phrase source et une image de vérité terrain qui lui est associée, et la même phrase source qui est visuellement hallucinée pour former une paire texte-image. Tout d’abord, l’image et la phrase de vérité-terrain sont symbolisées en représentations qui peuvent être manipulées par des transformateurs ; pour le cas de la phrase, chaque mot est un jeton. La phrase source est à nouveau symbolisée, mais cette fois passée à travers le transformateur d’hallucination visuelle, produisant une hallucination, une représentation d’image discrète de la phrase. Les chercheurs ont incorporé une autorégression qui compare la vérité au sol et les représentations hallucinées pour la congruence – par exemple, les homonymes : une référence à une “chauve-souris” animale n’est pas hallucinée comme une batte de baseball. Le transformateur d’hallucination utilise ensuite la différence entre eux pour optimiser ses prédictions et sa sortie visuelle, en s’assurant que le contexte est cohérent.

Les deux ensembles de jetons sont ensuite passés simultanément à travers le transformateur de traduction multimodal, chacun contenant la représentation de la phrase et l’image hallucinée ou de vérité au sol. Les sorties de traduction de texte tokenisées sont comparées avec l’objectif d’être similaires les unes aux autres et à la phrase cible dans une autre langue. Toutes les différences sont ensuite transmises au transformateur de traduction pour une optimisation supplémentaire.

Pour les tests, le flux d’images de vérité au sol diminue, car les images ne seraient probablement pas disponibles dans les scénarios de tous les jours.

“A notre connaissance, nous n’avons vu aucun travail qui utilise réellement un transformateur d’hallucination conjointement avec un système de traduction multimodal pour améliorer les performances de la traduction automatique”, déclare Panda.

Visualisation du texte cible

Pour tester leur méthode, l’équipe a confronté VALHALLA à d’autres méthodes de traduction multimodales et textuelles de pointe. Ils ont utilisé des ensembles de données de référence publics contenant des images de vérité au sol avec des phrases sources, et un ensemble de données pour traduire des articles de presse en texte uniquement. Les chercheurs ont mesuré ses performances sur 13 tâches, allant de la traduction dans des langues bien dotées (comme l’anglais, l’allemand et le français), des langues sous-financées (comme l’anglais vers le roumain) et non anglaises (comme l’espagnol vers le français). Le groupe a également testé différentes tailles de modèles de transformateurs, comment la précision change avec la longueur de la phrase et la traduction dans un contexte textuel limité, où des parties du texte étaient cachées aux traducteurs automatiques.

L’équipe a observé des améliorations significatives par rapport aux méthodes de traduction de texte uniquement, améliorant l’efficacité des données, et que les modèles plus petits fonctionnaient mieux que le modèle de base plus large. Au fur et à mesure que les phrases devenaient plus longues, les performances de VALHALLA par rapport aux autres méthodes augmentaient, ce que les chercheurs attribuaient à l’ajout de mots plus ambigus. Dans les cas où une partie de la phrase était masquée, VALHALLA a pu récupérer et traduire le texte original, ce que l’équipe a trouvé surprenant.

D’autres découvertes inattendues ont surgi : “Là où il n’y avait pas autant de formation [image and] paires de texte, [like for under-resourced languages], les améliorations étaient plus importantes, ce qui indique que la mise à la terre des images aide dans les régimes à faible volume de données », explique Kim. « Une autre chose qui m’a assez surpris était cette amélioration des performances, même sur des types de texte qui ne sont pas nécessairement facilement connectables à images. Par exemple, ce n’est peut-être pas si surprenant si cela aide à traduire des phrases visuellement saillantes, comme “il y a une voiture rouge devant la maison”. [However]même en texte seul [news article] domaines, l’approche a été en mesure d’améliorer les systèmes textuels. »

Bien que VALHALLA fonctionne bien, les chercheurs notent qu’il a des limites, exigeant que des paires de phrases soient annotées avec une image, ce qui pourrait rendre son obtention plus coûteuse. Il fonctionne également mieux dans son domaine de base et non dans les articles de presse en texte uniquement. De plus, notent Kim et Panda, une technique comme VALHALLA est toujours une boîte noire, avec l’hypothèse que les images hallucinées fournissent des informations utiles, et l’équipe prévoit d’étudier quoi et comment le modèle apprend afin de valider ses méthodes.

À l’avenir, l’équipe prévoit d’explorer d’autres moyens d’améliorer la traduction. “Ici, nous nous concentrons uniquement sur les images, mais il existe d’autres types d’informations multimodales, par exemple, la parole, la vidéo ou le toucher, ou d’autres modalités sensorielles”, explique Panda. “Nous pensons qu’une telle base multimodale peut conduire à des modèles de traduction automatique encore plus efficaces, bénéficiant potentiellement à la traduction dans de nombreuses langues à faibles ressources parlées dans le monde.”


Utilisation de l’apprentissage multitâche pour la traduction vocale à faible latence


Plus d’information:
VALHALLA : hallucination visuelle pour la traduction automatique

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: A machine-learning method hallucinates his way to better text translation (6 juin 2022) récupéré le 6 juin 2022 sur https://techxplore.com/news/2022-06-machine-learning-method-hallucinates-text.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.