Générer un monde 3D réaliste

Générer un monde 3D réaliste

Le 3DWorld simule la physique et les visualisations du monde réel dans un monde virtuel. Crédit : Chuang Gan et al

En vous tenant debout dans une cuisine, vous poussez des bols en métal sur le plan de travail dans l’évier avec un bruit sourd et vous placez une serviette sur le dossier d’une chaise. Dans une autre pièce, on dirait que des blocs de bois empilés de manière précaire sont tombés, et il y a un accident de voiture jouet épique. Ces interactions avec notre environnement ne sont que quelques-unes de ce que les humains vivent quotidiennement à la maison, mais bien que ce monde puisse sembler réel, il ne l’est pas.

Une nouvelle étude menée par des chercheurs du MIT, du MIT-IBM Watson AI Lab, de l’Université de Harvard et de l’Université de Stanford permet un monde virtuel riche, un peu comme entrer dans « The Matrix ». Leur plate-forme, appelée ThreeDWorld (TDW), simule des environnements audio et visuels haute fidélité, à la fois intérieurs et extérieurs, et permet aux utilisateurs, objets et agents mobiles d’interagir comme ils le feraient dans la vraie vie et selon les lois de la physique. Les orientations des objets, les caractéristiques physiques et les vitesses sont calculées et exécutées pour les fluides, les corps mous et les objets rigides au fur et à mesure que des interactions se produisent, produisant des collisions et des sons d’impact précis.

TDW est unique en ce qu’il est conçu pour être flexible et généralisable, générant des scènes photo-réalistes synthétiques et un rendu audio en temps réel, qui peuvent être compilés en ensembles de données audiovisuels, modifiés par des interactions au sein de la scène, et adaptés pour les humains et les neurones. apprentissage du réseau et tests de prédiction. Différents types d’agents et d’avatars robotiques peuvent également être générés dans la simulation contrôlée pour effectuer, par exemple, la planification et l’exécution des tâches. Et en utilisant la réalité virtuelle (VR), l’attention humaine et le comportement de jeu dans l’espace peuvent fournir des données du monde réel, par exemple.

« Nous essayons de créer une plate-forme de simulation à usage général qui imite la richesse interactive du monde réel pour une variété d’applications d’IA », déclare l’auteur principal de l’étude, Chuang Gan, chercheur au MIT-IBM Watson AI Lab.






Créer des mondes virtuels réalistes avec lesquels étudier les comportements humains et entraîner des robots a été un rêve des chercheurs en IA et en sciences cognitives. « La plupart de l’IA est actuellement basée sur l’apprentissage supervisé, qui repose sur d’énormes ensembles de données d’images ou de sons annotés par l’homme », explique Josh McDermott, professeur agrégé au Département des sciences du cerveau et de la cognition (BCS) et un MIT-IBM Watson AI Chef de projet laboratoire. Ces descriptions sont coûteuses à compiler, créant un goulot d’étranglement pour la recherche. Et pour les propriétés physiques des objets, comme la masse, qui n’est pas toujours évidente pour les observateurs humains, les étiquettes peuvent ne pas être disponibles du tout. Un simulateur comme TDW contourne ce problème en générant des scènes où tous les paramètres et annotations sont connus. De nombreuses simulations concurrentes ont été motivées par cette préoccupation mais ont été conçues pour des applications spécifiques ; par sa flexibilité, TDW est destiné à permettre de nombreuses applications peu adaptées aux autres plateformes.

Un autre avantage de TDW, note McDermott, est qu’il fournit un cadre contrôlé pour comprendre le processus d’apprentissage et faciliter l’amélioration des robots d’IA. Les systèmes robotiques, qui reposent sur des essais et des erreurs, peuvent être enseignés dans un environnement où ils ne peuvent pas causer de dommages physiques. De plus, « beaucoup d’entre nous sont enthousiasmés par les portes ouvertes par ces sortes de mondes virtuels pour faire des expériences sur les humains afin de comprendre la perception et la cognition humaines. Il existe la possibilité de créer ces scénarios sensoriels très riches, où vous avez toujours un contrôle total et complet connaissance de ce qui se passe dans l’environnement.

McDermott, Gan et leurs collègues présentent cette recherche lors de la conférence sur les systèmes de traitement de l’information neuronale (NeurIPS) en décembre.

Derrière le cadre

Le travail a commencé comme une collaboration entre un groupe de professeurs du MIT et des chercheurs de Stanford et d’IBM, liés par des intérêts de recherche individuels sur l’audition, la vision, la cognition et l’intelligence perceptive. TDW les a réunis sur une seule plate-forme. « Nous étions tous intéressés par l’idée de construire un monde virtuel dans le but de former des systèmes d’IA que nous pourrions réellement utiliser comme modèles du cerveau », explique McDermott, qui étudie l’audition humaine et machine. « Donc, nous avons pensé que ce type d’environnement, où vous pouvez avoir des objets qui interagiront les uns avec les autres puis restituer des données sensorielles réalistes à partir d’eux, serait un moyen précieux de commencer à étudier cela. »

Pour y parvenir, les chercheurs ont construit TDW sur une plate-forme de jeu vidéo appelée Unity3D Engine et se sont engagés à incorporer le rendu des données visuelles et auditives sans aucune animation. La simulation se compose de deux composants : la construction, qui rend les images, synthétise l’audio et exécute des simulations physiques ; et le contrôleur, qui est une interface basée sur Python où l’utilisateur envoie des commandes au build. Les chercheurs construisent et peuplent une scène en puisant dans une vaste bibliothèque de modèles 3D d’objets, tels que des meubles, des animaux et des véhicules. Ces modèles répondent avec précision aux changements d’éclairage, et leur composition matérielle et leur orientation dans la scène dictent leurs comportements physiques dans l’espace. Les modèles d’éclairage dynamique simulent avec précision l’éclairage de la scène, provoquant des ombres et une gradation qui correspondent à l’heure appropriée de la journée et à l’angle du soleil. L’équipe a également créé des plans d’étage virtuels meublés que les chercheurs peuvent remplir avec des agents et des avatars. Pour synthétiser un son réaliste, TDW utilise des modèles génératifs de sons d’impact déclenchés par des collisions ou d’autres interactions d’objets au sein de la simulation. TDW simule également l’atténuation du bruit et la réverbération en fonction de la géométrie de l’espace et des objets qui s’y trouvent.

Deux moteurs physiques dans TDW alimentent les déformations et les réactions entre les objets en interaction, l’un pour les corps rigides et l’autre pour les objets mous et les fluides. TDW effectue des calculs instantanés concernant la masse, le volume et la densité, ainsi que toute friction ou autres forces agissant sur les matériaux. Cela permet aux modèles d’apprentissage automatique d’apprendre comment des objets ayant des propriétés physiques différentes se comporteraient ensemble.

Les utilisateurs, agents et avatars peuvent donner vie aux scènes de plusieurs manières. Un chercheur pourrait appliquer directement une force à un objet via des commandes de contrôleur, ce qui pourrait littéralement mettre en mouvement une balle virtuelle. Les avatars peuvent être habilités à agir ou à se comporter d’une certaine manière dans l’espace, par exemple avec des membres articulés capables d’effectuer des expériences de tâches. Enfin, la tête et les combinés VR peuvent permettre aux utilisateurs d’interagir avec l’environnement virtuel, potentiellement pour générer des données comportementales humaines dont les modèles d’apprentissage automatique pourraient apprendre.

Des expériences d’IA plus riches

Pour tester et démontrer les fonctionnalités, capacités et applications uniques de TDW, l’équipe a effectué une batterie de tests comparant les ensembles de données générés par TDW et d’autres simulations virtuelles. L’équipe a découvert que les réseaux de neurones formés sur des instantanés d’images de scène avec des angles de caméra placés au hasard à partir de TDW surpassaient les instantanés d’autres simulations dans les tests de classification d’images et se rapprochaient de ceux des systèmes formés sur des images du monde réel. Les chercheurs ont également généré et formé un modèle de classification des matériaux sur des clips audio de petits objets tombant sur des surfaces dans TDW et lui ont demandé d’identifier les types de matériaux qui interagissaient. Ils ont découvert que TDW produisait des gains importants par rapport à son concurrent. Des tests supplémentaires de suppression d’objets avec des réseaux de neurones entraînés sur TDW ont révélé que la combinaison de l’audio et de la vision est le meilleur moyen d’identifier les propriétés physiques des objets, motivant une étude plus approfondie de l’intégration audiovisuelle.

TDW s’avère particulièrement utile pour concevoir et tester des systèmes qui comprennent comment les événements physiques d’une scène évolueront au fil du temps. Cela inclut de faciliter les points de repère sur la façon dont un modèle ou un algorithme fait des prédictions physiques, par exemple, la stabilité des piles d’objets, ou le mouvement des objets après une collision – les humains apprennent bon nombre de ces concepts quand ils sont enfants, mais de nombreuses machines doivent démontrer cette capacité à être utile dans le monde réel. TDW a également permis des comparaisons de la curiosité humaine et de la prédiction avec celles d’agents machines conçues pour évaluer les interactions sociales dans différents scénarios.

Gan souligne que ces applications ne sont que la pointe de l’iceberg. En élargissant les capacités de simulation physique de TDW pour décrire le monde réel avec plus de précision, « nous essayons de créer de nouveaux repères pour faire progresser les technologies de l’IA, et d’utiliser ces repères pour ouvrir de nombreux nouveaux problèmes qui jusqu’à présent étaient difficiles à étudier ».

L’équipe de recherche sur le papier comprend également les ingénieurs du MIT Jeremy Schwartz et Seth Alter, qui jouent un rôle déterminant dans le fonctionnement de TDW; les professeurs BCS James DiCarlo et Joshua Tenenbaum ; les étudiants diplômés Aidan Curtis et Martin Schrimpf; et les anciens post-doctorants James Traer (maintenant professeur assistant à l’Université de l’Iowa) et Jonas Kubilius Ph.D. Leurs collègues sont le directeur IBM du MIT-IBM Watson AI Lab, David Cox ; ingénieur logiciel de recherche Abhishek Bhandwalder; et membre du personnel de recherche Dan Gutfreund d’IBM. Les chercheurs supplémentaires co-auteurs sont le professeur assistant de l’Université Harvard Julian De Freitas; et de l’Université de Stanford, les professeurs adjoints Daniel LK Yamins (un fondateur de TDW) et Nick Haber, le postdoctorant Daniel M. Bear, et les étudiants diplômés Megumi Sano, Kuno Kim, Elias Wang, Damian Mrowca, Kevin Feigelis et Michael Lingelbach.


Un modèle d’apprentissage automatique pourrait permettre aux robots de comprendre les interactions à la manière des humains


Plus d’information:
ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation est disponible en format PDF sur openreview.net/pdf?id=db1InWAwW2T

Fourni par le Massachusetts Institute of Technology

Citation: Générer un monde 3D réaliste (2021, 6 décembre) récupéré le 6 décembre 2021 sur https://techxplore.com/news/2021-12-realistic-3d-world.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.