Des machines qui voient le monde plus comme les humains le font

Des machines qui voient le monde plus comme les humains le font

Cette image montre comment 3DP3 (rangée du bas) déduit des estimations de pose plus précises des objets à partir des images d’entrée (rangée du haut) que les systèmes d’apprentissage en profondeur (rangée du milieu). Crédit : Massachusetts Institute of Technology

Les systèmes de vision par ordinateur font parfois des déductions sur une scène qui vont à l’encontre du bon sens. Par exemple, si un robot traitait une scène d’une table à dîner, il pourrait ignorer complètement un bol visible par tout observateur humain, estimer qu’une assiette flotte au-dessus de la table ou percevoir à tort qu’une fourchette pénètre dans un bol plutôt que appuyé contre elle.

Déplacez ce système de vision par ordinateur vers une voiture autonome et les enjeux deviennent beaucoup plus importants – par exemple, de tels systèmes n’ont pas réussi à détecter les véhicules d’urgence et les piétons traversant la rue.

Pour surmonter ces erreurs, les chercheurs du MIT ont développé un cadre qui aide les machines à voir le monde plus comme le font les humains. Leur nouveau système d’intelligence artificielle pour analyser des scènes apprend à percevoir des objets du monde réel à partir de quelques images seulement et perçoit les scènes en fonction de ces objets appris.

Les chercheurs ont construit le cadre à l’aide de la programmation probabiliste, une approche d’IA qui permet au système de comparer les objets détectés aux données d’entrée, pour voir si les images enregistrées à partir d’une caméra correspondent probablement à une scène candidate. L’inférence probabiliste permet au système de déduire si les discordances sont probablement dues au bruit ou à des erreurs dans l’interprétation de la scène qui doivent être corrigées par un traitement ultérieur.

Cette sauvegarde de bon sens permet au système de détecter et de corriger de nombreuses erreurs qui empoisonnent les approches de « deep-learning » qui ont également été utilisées pour la vision par ordinateur. La programmation probabiliste permet également de déduire des relations de contact probables entre les objets de la scène et d’utiliser un raisonnement de bon sens à propos de ces contacts pour déduire des positions plus précises pour les objets.

« Si vous ne connaissez pas les relations de contact, alors vous pourriez dire qu’un objet flotte au-dessus de la table – ce serait une explication valable. En tant qu’humains, il est évident pour nous que cela est physiquement irréaliste et que l’objet repose sur le haut de la table est une pose plus probable de l’objet. Parce que notre système de raisonnement est conscient de ce type de connaissance, il peut déduire des poses plus précises. C’est un aperçu clé de ce travail », explique l’auteur principal Nishad Gothoskar, un spécialiste de l’électricité Ph.D. ingénierie et informatique (EECS) étudiant avec le Probabilistic Computing Project.

En plus d’améliorer la sécurité des voitures autonomes, ces travaux pourraient améliorer les performances des systèmes de perception informatiques qui doivent interpréter des arrangements compliqués d’objets, comme un robot chargé de nettoyer une cuisine encombrée.

Les co-auteurs de Gothoskar incluent un récent doctorat EECS. diplômé Marco Cusumano-Towner; ingénieur de recherche Ben Zinberg ; l’étudiant invité Matin Ghavamizadeh ; Falk Pollok, ingénieur logiciel au MIT-IBM Watson AI Lab ; Austin Garrett, récent diplômé de la maîtrise EECS; Dan Gutfreund, chercheur principal au MIT-IBM Watson AI Lab ; Joshua B. Tenenbaum, professeur Paul E. Newton en développement de carrière en sciences cognitives et calcul au Département des sciences du cerveau et des sciences cognitives (BCS) et membre du Laboratoire d’informatique et d’intelligence artificielle ; et l’auteur principal Vikash K. Mansinghka, chercheur principal et chef du projet de calcul probabiliste de BCS. La recherche est présentée à la Conférence sur les systèmes de traitement de l’information neuronale en décembre.

Un souffle du passé

Pour développer le système, appelé « Perception de scène 3D via la programmation probabiliste (3DP3) », les chercheurs se sont inspirés d’un concept des premiers jours de la recherche sur l’IA, à savoir que la vision par ordinateur peut être considérée comme « l’inverse » de l’infographie.

L’infographie se concentre sur la génération d’images basées sur la représentation d’une scène ; la vision par ordinateur peut être considérée comme l’inverse de ce processus. Gothoskar et ses collaborateurs ont rendu cette technique plus facile à apprendre et évolutive en l’intégrant dans un cadre construit à l’aide de la programmation probabiliste.

« La programmation probabiliste nous permet d’écrire nos connaissances sur certains aspects du monde d’une manière qu’un ordinateur peut interpréter, mais en même temps, elle nous permet d’exprimer ce que nous ne savons pas, l’incertitude. Ainsi, le système est capable d’apprendre automatiquement à partir des données et également de détecter automatiquement lorsque les règles ne tiennent pas », explique Cusumano-Towner.

Dans ce cas, le modèle est codé avec des connaissances préalables sur les scènes 3D. Par exemple, 3DP3 « sait » que les scènes sont composées d’objets différents et que ces objets reposent souvent à plat les uns sur les autres, mais ils peuvent ne pas toujours être dans des relations aussi simples. Cela permet au modèle de raisonner sur une scène avec plus de bon sens.

Apprentissage des formes et des scènes

Pour analyser une image d’une scène, 3DP3 apprend d’abord les objets de cette scène. Après avoir montré seulement cinq images d’un objet, chacune prise sous un angle différent, 3DP3 apprend la forme de l’objet et estime le volume qu’il occuperait dans l’espace.

« Si je vous montre un objet sous cinq perspectives différentes, vous pouvez construire une assez bonne représentation de cet objet. Vous comprendriez sa couleur, sa forme et vous seriez capable de reconnaître cet objet dans de nombreuses scènes différentes », a déclaré Gothoskar. dit.

Mansinghka ajoute : « Il s’agit de beaucoup moins de données que les approches d’apprentissage en profondeur. Par exemple, le système de détection d’objets neuronaux Dense Fusion nécessite des milliers d’exemples de formation pour chaque type d’objet. En revanche, 3DP3 ne nécessite que quelques images par objet et signale une incertitude. sur les parties de la forme de chaque objet qu’il ne connaît pas. »

Le système 3DP3 génère un graphique pour représenter la scène, où chaque objet est un nœud et les lignes qui relient les nœuds indiquent quels objets sont en contact les uns avec les autres. Cela permet à 3DP3 de produire une estimation plus précise de la disposition des objets. (Les approches d’apprentissage en profondeur reposent sur des images de profondeur pour estimer les poses d’objets, mais ces méthodes ne produisent pas de structure graphique des relations de contact, de sorte que leurs estimations sont moins précises.)

Des modèles de référence plus performants

Les chercheurs ont comparé 3DP3 avec plusieurs systèmes d’apprentissage en profondeur, tous chargés d’estimer les poses d’objets 3D dans une scène.

Dans presque tous les cas, 3DP3 a généré des poses plus précises que les autres modèles et a fonctionné bien mieux lorsque certains objets obstruaient partiellement d’autres. Et 3DP3 n’avait besoin de voir que cinq images de chaque objet, tandis que chacun des modèles de base qu’il surpassait avait besoin de milliers d’images pour l’entraînement.

Lorsqu’il est utilisé avec un autre modèle, le 3DP3 a pu améliorer sa précision. Par exemple, un modèle d’apprentissage en profondeur peut prédire qu’un bol flotte légèrement au-dessus d’une table, mais parce que 3DP3 a connaissance des relations de contact et peut voir qu’il s’agit d’une configuration improbable, il est capable d’apporter une correction en alignant le bol avec le tableau.

« J’ai trouvé surprenant de voir à quel point les erreurs du deep learning pouvaient parfois être importantes : produire des représentations de scènes où les objets ne correspondaient vraiment pas à ce que les gens percevraient. J’ai également trouvé surprenant que seule une petite partie de l’inférence basée sur un modèle dans notre programme probabiliste causal était suffisant pour détecter et corriger ces erreurs. Bien sûr, il reste encore un long chemin à parcourir pour le rendre suffisamment rapide et robuste pour les systèmes de vision en temps réel difficiles, mais pour la première fois, nous voyons des probabilités probabilistes la programmation et les modèles causaux structurés améliorant la robustesse par rapport à l’apprentissage en profondeur sur des références de vision 3D dures », explique Mansinghka.

À l’avenir, les chercheurs aimeraient pousser le système plus loin afin qu’il puisse connaître un objet à partir d’une seule image ou d’une seule image dans un film, puis être capable de détecter cet objet de manière robuste dans différentes scènes. Ils aimeraient également explorer l’utilisation de 3DP3 pour collecter des données d’entraînement pour un réseau de neurones. Il est souvent difficile pour les humains d’étiqueter manuellement des images avec une géométrie 3D, donc 3DP3 pourrait être utilisé pour générer des étiquettes d’images plus complexes.

Le système 3DP3 « combine une modélisation graphique basse fidélité avec un raisonnement de bon sens pour corriger les erreurs d’interprétation de grandes scènes commises par les réseaux neuronaux d’apprentissage en profondeur. Ce type d’approche pourrait avoir une large applicabilité car elle traite des modes de défaillance importants de l’apprentissage en profondeur. Les chercheurs du MIT » l’accomplissement montre également comment la technologie de programmation probabiliste précédemment développée dans le cadre du programme Probabilistic Programming for Advancing Machine Learning (PPAML) de la DARPA peut être appliquée pour résoudre les problèmes centraux de l’IA de bon sens dans le cadre du programme actuel Machine Common Sense (MCS) de la DARPA », déclare Matt Turek, DARPA Gestionnaire de programme pour le programme Machine Common Sense, qui n’était pas impliqué dans cette recherche, bien que le programme ait financé en partie l’étude.


L’intelligence artificielle qui comprend les relations d’objet


Plus d’information:
Nishad Gothoskar et al, 3DP3 : Perception de scène 3D via une programmation probabiliste. arXiv:2111.00312v1 [cs.CV], arxiv.org/abs/2111.00312

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Des machines qui voient le monde plus comme les humains (2021, 8 décembre) récupéré le 8 décembre 2021 sur https://techxplore.com/news/2021-12-machines-world-humans.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.