Un pipeline de réseau neuronal formé simule des systèmes physiques de corps rigides et déformables et des conditions environnementales

Un sur la capture de mouvement

Les chercheurs du MIT ont utilisé la méthode RISP pour prédire la séquence d’action, la raideur articulaire ou le mouvement d’une main articulée, comme celle-ci, à partir d’une image ou d’une vidéo cible. Crédit : Institut de technologie du Massachusetts. Crédit : Institut de technologie du Massachusetts

De “Star Wars” à “Happy Feet”, de nombreux films bien-aimés contiennent des scènes rendues possibles par la technologie de capture de mouvement, qui enregistre le mouvement d’objets ou de personnes par vidéo. De plus, les applications de ce suivi, qui impliquent des interactions compliquées entre la physique, la géométrie et la perception, s’étendent au-delà d’Hollywood à l’armée, à l’entraînement sportif, aux domaines médicaux, à la vision par ordinateur et à la robotique, permettant aux ingénieurs de comprendre et de simuler des actions se déroulant dans le monde réel. environnements.

Comme cela peut être un processus complexe et coûteux – nécessitant souvent des marqueurs placés sur des objets ou des personnes et enregistrant la séquence d’action – les chercheurs travaillent à déplacer le fardeau vers les réseaux de neurones, qui pourraient acquérir ces données à partir d’une simple vidéo et les reproduire dans un modèle . Les travaux dans les simulations physiques et les spectacles de rendu promettent de le rendre plus largement utilisé, car il peut caractériser un mouvement réaliste, continu et dynamique à partir d’images et se transformer dans les deux sens entre un rendu 2D et une scène 3D dans le monde. Cependant, pour ce faire, les techniques actuelles nécessitent une connaissance précise des conditions environnementales dans lesquelles se déroule l’action et le choix du moteur de rendu, qui sont souvent indisponibles.

Maintenant, une équipe de chercheurs du MIT et d’IBM a développé un pipeline de réseau neuronal formé qui évite ce problème, avec la capacité de déduire l’état de l’environnement et les actions qui se produisent, les caractéristiques physiques de l’objet ou de la personne d’intérêt (système) , et ses paramètres de contrôle. Lorsqu’elle est testée, la technique peut surpasser d’autres méthodes dans les simulations de quatre systèmes physiques de corps rigides et déformables, qui illustrent différents types de dynamiques et d’interactions, dans diverses conditions environnementales. De plus, la méthodologie permet l’apprentissage par imitation, en prédisant et en reproduisant la trajectoire d’un quadrirotor volant du monde réel à partir d’une vidéo.

“Le problème de recherche de haut niveau dont traite cet article est de savoir comment reconstruire un jumeau numérique à partir d’une vidéo d’un système dynamique”, explique Tao Du Ph.D. ’21, postdoc au Département de génie électrique et d’informatique (EECS), membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et membre de l’équipe de recherche. Pour ce faire, dit Du, “nous devons ignorer les écarts de rendu des clips vidéo et essayer de saisir les informations de base sur le système dynamique ou le mouvement dynamique”.

Un sur la capture de mouvement

Légende : cet ensemble de formation a été utilisé pour former le pipeline RISP afin de voir comment les différences de rendu peuvent affecter la texture, la lumière et l’arrière-plan. Crédit : Institut de technologie du Massachusetts

Les co-auteurs de Du incluent l’auteur principal Pingchuan Ma, étudiant diplômé en EECS et membre de CSAIL; Josh Tenenbaum, professeur de développement de carrière Paul E. Newton en sciences cognitives et informatique au Département des sciences du cerveau et cognitives et membre du CSAIL ; Wojciech Matusik, professeur de génie électrique et d’informatique et membre du CSAIL ; et Chuang Gan, membre principal du personnel de recherche du MIT-IBM Watson AI Lab. Ce travail a été présenté cette semaine à la Conférence internationale sur les représentations de l’apprentissage.

Alors que la capture de vidéos de personnages, de robots ou de systèmes dynamiques pour déduire un mouvement dynamique rend ces informations plus accessibles, cela apporte également un nouveau défi. “Les images ou vidéos [and how they are rendered] dépendent en grande partie des conditions d’éclairage, des informations d’arrière-plan, des informations de texture, des informations matérielles de votre environnement, et celles-ci ne sont pas nécessairement mesurables dans un scénario réel », explique Du. Sans ces informations de configuration de rendu ou savoir quel moteur de rendu est utilisé, il est actuellement difficile de glaner des informations dynamiques et de prédire le comportement du sujet de la vidéo. Même si le moteur de rendu est connu, les approches actuelles des réseaux de neurones nécessitent encore de grands ensembles de données d’entraînement. Cependant, avec leur nouvelle approche, cela peut devenir discutable.” Si vous prenez une vidéo d’un léopard courant le matin et le soir, bien sûr, vous obtiendrez des clips vidéo visuellement différents car les conditions d’éclairage sont très différentes. Mais ce qui compte vraiment, c’est le mouvement dynamique : les angles des articulations du léopard, pas s’ils ont l’air clairs ou foncés”, explique Du.

Afin de résoudre le problème des domaines de rendu et des différences d’image, l’équipe a développé un système de pipeline contenant un réseau de neurones, appelé réseau de “prédiction d’état invariant de rendu (RISP)”. RISP transforme les différences d’images (pixels) en différences d’états du système, c’est-à-dire l’environnement d’action, ce qui rend leur méthode généralisable et indépendante des configurations de rendu. RISP est formé à l’aide de paramètres et d’états de rendu aléatoires, qui sont introduits dans un moteur de rendu différentiable, un type de moteur de rendu qui mesure la sensibilité des pixels par rapport aux configurations de rendu, par exemple, l’éclairage ou les couleurs des matériaux. Cela génère un ensemble d’images et de vidéos variées à partir de paramètres de vérité au sol connus, ce qui permettra plus tard au RISP d’inverser ce processus, en prédisant l’état de l’environnement à partir de la vidéo d’entrée. L’équipe a également minimisé les gradients de rendu de RISP, de sorte que ses prédictions soient moins sensibles aux modifications des configurations de rendu, lui permettant d’apprendre à oublier les apparences visuelles et à se concentrer sur l’apprentissage des états dynamiques. Ceci est rendu possible par un moteur de rendu différentiable.

La méthode utilise alors deux pipelines similaires, exécutés en parallèle. L’un est pour le domaine source, avec des variables connues. Ici, les paramètres et les actions du système sont entrés dans une simulation différentiable. Les états de la simulation générée sont combinés avec différentes configurations de rendu dans un rendu différentiable pour générer des images, qui sont introduites dans RISP. RISP produit ensuite des prédictions sur les états environnementaux. Dans le même temps, un pipeline de domaine cible similaire est exécuté avec des variables inconnues. RISP dans ce pipeline reçoit ces images de sortie, générant un état prédit. Lorsque les états prédits des domaines source et cible sont comparés, une nouvelle perte est produite ; cette différence est utilisée pour ajuster et optimiser certains des paramètres dans le pipeline du domaine source. Ce processus peut ensuite être réitéré, réduisant davantage la perte entre les pipelines.







La technique RISP (à gauche) est capable de reconstruire de manière similaire le mouvement dynamique d’un quadrirotor volant (comme la vidéo d’entrée) sans connaître la configuration de rendu exacte. Les configurations d’éclairage et de matériel que RISP utilise ici sont intentionnellement différentes de la vidéo d’entrée, pour démontrer la capacité de la méthode. Crédit : Institut de technologie du Massachusetts

Pour déterminer le succès de leur méthode, l’équipe l’a testée dans quatre systèmes simulés : un quadrirotor (un corps rigide volant qui n’a aucun contact physique), un cube (un corps rigide qui interagit avec son environnement, comme un dé) , une main articulée, et une tige (corps déformable pouvant se déplacer comme un serpent). Les tâches comprenaient l’estimation de l’état d’un système à partir d’une image, l’identification des paramètres du système et des signaux de commande d’action à partir d’une vidéo, et la découverte des signaux de commande à partir d’une image cible qui dirigent le système vers l’état souhaité. De plus, ils ont créé des lignes de base et un oracle, comparant le nouveau processus RISP dans ces systèmes à des méthodes similaires qui, par exemple, n’ont pas la perte de gradient de rendu, n’entraînent pas de réseau neuronal avec aucune perte ou manquent complètement du réseau neuronal RISP. L’équipe a également examiné l’impact de la perte de gradient sur les performances du modèle de prédiction d’état au fil du temps. Enfin, les chercheurs ont déployé leur système RISP pour déduire le mouvement d’un quadrirotor du monde réel, qui a une dynamique complexe, à partir de la vidéo. Ils ont comparé les performances à d’autres techniques qui n’avaient pas de fonction de perte et utilisaient des différences de pixels, ou qui incluaient un réglage manuel de la configuration d’un moteur de rendu.

Dans presque toutes les expériences, la procédure RISP a surpassé les méthodes similaires ou de pointe disponibles, imitant ou reproduisant les paramètres ou le mouvement souhaités, et s’avérant être un concurrent efficace en termes de données et généralisable aux approches actuelles de capture de mouvement.

Pour ce travail, les chercheurs ont fait deux hypothèses importantes : que les informations sur la caméra sont connues, telles que sa position et ses réglages, ainsi que la géométrie et la physique régissant l’objet ou la personne qui est suivi. Des travaux futurs sont prévus pour y remédier.

“Je pense que le plus gros problème que nous résolvons ici est de reconstruire les informations d’un domaine à un autre, sans équipement très coûteux”, explique Ma. Une telle approche devrait être “utile pour [applications such as the] métaverse, qui vise à reconstruire le monde physique dans un environnement virtuel », ajoute Gan. « Il s’agit essentiellement d’une solution quotidienne, disponible, simple et soignée, pour la reconstruction inter-domaines ou le problème de dynamique inverse », explique Ma.


La technique permet un rendu en temps réel des scènes en 3D


Plus d’information:
RISP : prédicteur d’état invariant de rendu avec simulation et rendu différentiables pour l’estimation des paramètres inter-domaines. openreview.net/forum?id=uSE03demja

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Un pipeline de réseau neuronal formé simule des systèmes physiques de corps rigides et déformables et des conditions environnementales (2022, 3 mai) récupéré le 3 mai 2022 sur https://techxplore.com/news/2022-05-neural-network-pipeline-simulates-physical .html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.