Le modèle d’apprentissage automatique peut identifier l’action dans un clip vidéo et l’étiqueter, sans l’aide d’humains

Le système d'intelligence artificielle apprend les concepts partagés par la vidéo, l'audio et le texte

Les chercheurs du MIT ont développé une technique d’apprentissage automatique qui apprend à représenter les données d’une manière qui capture les concepts partagés entre les modalités visuelles et audio. Leur modèle peut identifier où certaines actions se déroulent dans une vidéo et les étiqueter. Crédit : Institut de technologie du Massachusetts

Les humains observent le monde à travers une combinaison de différentes modalités, comme la vision, l’ouïe et notre compréhension du langage. Les machines, quant à elles, interprètent le monde à travers des données que les algorithmes peuvent traiter.

Ainsi, lorsqu’une machine “voit” une photo, elle doit coder cette photo en données qu’elle peut utiliser pour effectuer une tâche telle que la classification d’images. Ce processus devient plus compliqué lorsque les entrées se présentent sous plusieurs formats, comme des vidéos, des clips audio et des images.

“Le principal défi ici est de savoir comment une machine peut aligner ces différentes modalités ? En tant qu’êtres humains, c’est facile pour nous. Nous voyons une voiture, puis nous entendons le bruit d’une voiture qui passe, et nous savons que c’est la même chose. Mais pour l’apprentissage automatique, ce n’est pas si simple », explique Alexander Liu, étudiant diplômé du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et premier auteur d’un article traitant de ce problème.

Liu et ses collaborateurs ont développé une technique d’intelligence artificielle qui apprend à représenter les données d’une manière qui capture les concepts partagés entre les modalités visuelles et audio. Par exemple, leur méthode peut apprendre que l’action d’un bébé qui pleure dans une vidéo est liée au mot prononcé “pleurer” dans un clip audio.

En utilisant ces connaissances, leur modèle d’apprentissage automatique peut identifier où une certaine action se déroule dans une vidéo et l’étiqueter.

Il fonctionne mieux que les autres méthodes d’apprentissage automatique dans les tâches de récupération intermodales, qui impliquent de trouver une donnée, comme une vidéo, qui correspond à la requête d’un utilisateur donnée sous une autre forme, comme le langage parlé. Leur modèle permet également aux utilisateurs de voir plus facilement pourquoi la machine pense que la vidéo qu’elle a récupérée correspond à leur requête.

Cette technique pourrait un jour être utilisée pour aider les robots à apprendre les concepts du monde par la perception, un peu comme le font les humains.

Rejoindre Liu sur le papier sont CSAIL postdoc SouYoung Jin; les étudiants diplômés Cheng-I Jeff Lai et Andrew Rouditchenko; Aude Oliva, chercheuse senior au CSAIL et directrice du MIT-IBM Watson AI Lab au MIT ; et l’auteur principal James Glass, chercheur scientifique principal et chef du groupe des systèmes de langage parlé au CSAIL. La recherche sera présentée lors de la réunion annuelle de l’Association for Computational Linguistics.

Représentations d’apprentissage

Les chercheurs concentrent leurs travaux sur l’apprentissage de la représentation, qui est une forme d’apprentissage automatique qui cherche à transformer les données d’entrée pour faciliter l’exécution d’une tâche comme la classification ou la prédiction.

Le modèle d’apprentissage de la représentation prend des données brutes, telles que des vidéos et leurs légendes de texte correspondantes, et les encode en extrayant des caractéristiques ou des observations sur des objets et des actions dans la vidéo. Ensuite, il mappe ces points de données dans une grille, appelée espace d’intégration. Le modèle regroupe des données similaires sous forme de points uniques dans la grille. Chacun de ces points de données, ou vecteurs, est représenté par un mot individuel.

Par exemple, un clip vidéo d’une personne en train de jongler peut être associé à un vecteur intitulé “jonglerie”.

Les chercheurs limitent le modèle afin qu’il ne puisse utiliser que 1 000 mots pour étiqueter les vecteurs. Le modèle peut décider quelles actions ou quels concepts il souhaite encoder dans un seul vecteur, mais il ne peut utiliser que 1 000 vecteurs. Le modèle choisit les mots qui, selon lui, représentent le mieux les données.

Plutôt que d’encoder les données de différentes modalités sur des grilles séparées, leur méthode utilise un espace d’intégration partagé où deux modalités peuvent être encodées ensemble. Cela permet au modèle d’apprendre la relation entre les représentations de deux modalités, comme la vidéo qui montre une personne en train de jongler et un enregistrement audio de quelqu’un disant “jongler”.

Pour aider le système à traiter les données de plusieurs modalités, ils ont conçu un algorithme qui guide la machine pour encoder des concepts similaires dans le même vecteur.

“S’il existe une vidéo sur les cochons, le modèle peut attribuer le mot “cochon” à l’un des 1 000 vecteurs. Ensuite, si le modèle entend quelqu’un prononcer le mot “cochon” dans un clip audio, il doit toujours utiliser le même vecteur pour encoder cela », explique Liu.

Un meilleur récupérateur

Ils ont testé le modèle sur des tâches de récupération intermodales à l’aide de trois ensembles de données : un ensemble de données vidéo-texte avec des clips vidéo et des légendes de texte, un ensemble de données vidéo-audio avec des clips vidéo et des légendes audio parlées, et un ensemble de données image-audio avec des images et de l’audio parlé. légendes.

Par exemple, dans le jeu de données vidéo-audio, le modèle a choisi 1 000 mots pour représenter les actions dans les vidéos. Ensuite, lorsque les chercheurs l’ont alimenté en requêtes audio, le modèle a essayé de trouver le clip qui correspondait le mieux à ces mots prononcés.

“Tout comme une recherche Google, vous saisissez du texte et la machine essaie de vous indiquer les éléments les plus pertinents que vous recherchez. Nous sommes les seuls à le faire dans l’espace vectoriel”, explique Liu.

Non seulement leur technique était plus susceptible de trouver de meilleures correspondances que les modèles auxquels ils l’ont comparée, mais elle est également plus facile à comprendre.

Étant donné que le modèle ne pouvait utiliser que 1 000 mots au total pour étiqueter les vecteurs, un utilisateur peut plus facilement voir quels mots la machine a utilisés pour conclure que la vidéo et les mots prononcés sont similaires. Cela pourrait rendre le modèle plus facile à appliquer dans des situations réelles où il est essentiel que les utilisateurs comprennent comment il prend des décisions, explique Liu.

Le modèle a encore certaines limites qu’ils espèrent aborder dans les travaux futurs. D’une part, leurs recherches se sont concentrées sur les données de deux modalités à la fois, mais dans le monde réel, les humains rencontrent simultanément de nombreuses modalités de données, dit Liu.

“Et nous savons que 1 000 mots fonctionnent sur ce type d’ensemble de données, mais nous ne savons pas si cela peut être généralisé à un problème du monde réel”, ajoute-t-il.

De plus, les images et les vidéos de leurs ensembles de données contenaient des objets simples ou des actions directes ; les données du monde réel sont beaucoup plus désordonnées. Ils veulent également déterminer dans quelle mesure leur méthode évolue lorsqu’il existe une plus grande diversité d’intrants.


En matière d’IA, pouvons-nous abandonner les ensembles de données ?


Plus d’information:
Alexander H. Liu et al, Apprentissage de représentation discrète intermodale. arXiv:2106.05438v1 [cs.CV]arxiv.org/abs/2106.05438

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Un modèle d’apprentissage automatique peut identifier l’action dans un clip vidéo et l’étiqueter, sans l’aide d’humains (2022, 4 mai) récupéré le 4 mai 2022 sur https://techxplore.com/news/2022-05-machine-learning -action-video-humans.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.