Technique de vision par ordinateur pour améliorer la compréhension 3D des images 2D

Technique de vision par ordinateur pour améliorer la compréhension 3D des images 2D

Les chercheurs ont créé un système de vision par ordinateur qui combine deux types de correspondances pour une estimation précise de la pose dans un large éventail de scénarios pour “voir à travers” les scènes. Crédit : MIT CSAIL

En regardant des photographies et en s’appuyant sur leurs expériences passées, les humains peuvent souvent percevoir la profondeur dans des images qui sont elles-mêmes parfaitement plates. Cependant, faire en sorte que les ordinateurs fassent la même chose s’est avéré assez difficile.

Le problème est difficile pour plusieurs raisons, l’une étant que des informations sont inévitablement perdues lorsqu’une scène qui se déroule en trois dimensions est réduite à une représentation en deux dimensions (2D). Il existe des stratégies bien établies pour récupérer des informations 3D à partir de plusieurs images 2D, mais elles ont chacune des limites. Une nouvelle approche appelée “correspondance virtuelle”, qui a été développée par des chercheurs du MIT et d’autres institutions, peut contourner certaines de ces lacunes et réussir dans les cas où la méthodologie conventionnelle échoue.

L’approche standard, appelée “structure à partir du mouvement”, est calquée sur un aspect clé de la vision humaine. Parce que nos yeux sont séparés les uns des autres, ils offrent chacun des vues légèrement différentes d’un objet. Un triangle peut être formé dont les côtés sont constitués du segment de ligne reliant les deux yeux, plus les segments de ligne reliant chaque œil à un point commun sur l’objet en question. Connaissant les angles dans le triangle et la distance entre les yeux, il est possible de déterminer la distance à ce point en utilisant la géométrie élémentaire – bien que le système visuel humain, bien sûr, puisse porter des jugements approximatifs sur la distance sans avoir à passer par des calculs trigonométriques ardus. Cette même idée de base – la triangulation ou les vues de parallaxe – a été exploitée par les astronomes pendant des siècles pour calculer la distance aux étoiles lointaines.

La triangulation est un élément clé de la structure du mouvement. Supposons que vous ayez deux images d’un objet – une figure sculptée d’un lapin, par exemple – l’une prise du côté gauche de la figure et l’autre de la droite. La première étape serait de trouver des points ou des pixels sur la surface du lapin que les deux images partagent. Un chercheur pourrait partir de là pour déterminer les “poses” des deux caméras – les positions d’où les photos ont été prises et la direction dans laquelle chaque caméra faisait face. Connaissant la distance entre les caméras et la façon dont elles étaient orientées, on pouvait alors trianguler pour calculer la distance jusqu’à un point sélectionné sur le lapin. Et si suffisamment de points communs sont identifiés, il pourrait être possible d’obtenir une idée détaillée de la forme générale de l’objet (ou “lapin”).

Des progrès considérables ont été réalisés avec cette technique, commente Wei-Chiu Ma, un Ph.D. étudiant au Département de génie électrique et d’informatique (EECS) du MIT, “et les gens associent désormais les pixels avec une précision de plus en plus grande. Tant que nous pouvons observer le même point, ou les mêmes points, sur différentes images, nous pouvons utiliser les algorithmes existants pour déterminer les positions relatives entre les caméras.” Mais l’approche ne fonctionne que si les deux images se chevauchent largement. Si les images d’entrée ont des points de vue très différents – et contiennent donc peu ou pas de points communs – ajoute-t-il, “le système peut échouer”.

Au cours de l’été 2020, Ma a proposé une nouvelle façon de faire les choses qui pourrait considérablement étendre la portée de la structure à partir du mouvement. Le MIT était fermé à l’époque en raison de la pandémie, et Ma était chez elle à Taïwan, se relaxant sur le canapé. En regardant la paume de sa main et le bout de ses doigts en particulier, il lui vint à l’esprit qu’il pouvait clairement se représenter ses ongles, même s’ils ne lui étaient pas visibles.






Les méthodes existantes qui reconstruisent des scènes 3D à partir d’images 2D reposent sur les images qui contiennent certaines des mêmes caractéristiques. La correspondance virtuelle est une méthode de reconstruction 3D qui fonctionne même avec des images prises à partir de vues extrêmement différentes qui ne présentent pas les mêmes caractéristiques. Crédit : Institut de technologie du Massachusetts

C’était l’inspiration pour la notion de correspondance virtuelle, que Ma a ensuite poursuivie avec son conseiller, Antonio Torralba, professeur EECS et chercheur au Laboratoire d’informatique et d’intelligence artificielle, avec Anqi Joyce Yang et Raquel Urtasun de l’Université de Toronto. et Shenlong Wang de l’Université de l’Illinois. “Nous voulons intégrer les connaissances et le raisonnement humains dans nos algorithmes 3D existants”, explique Ma, le même raisonnement qui lui a permis de regarder le bout de ses doigts et d’évoquer les ongles de l’autre côté, le côté qu’il ne pouvait pas voir.

La structure à partir du mouvement fonctionne lorsque deux images ont des points en commun, car cela signifie qu’un triangle peut toujours être dessiné reliant les caméras au point commun, et des informations de profondeur peuvent ainsi être glanées à partir de cela. La correspondance virtuelle offre un moyen d’aller plus loin. Supposons, encore une fois, qu’une photo soit prise du côté gauche d’un lapin et qu’une autre photo soit prise du côté droit. La première photo pourrait révéler une tache sur la patte gauche du lapin. Mais puisque la lumière voyage en ligne droite, on pourrait utiliser une connaissance générale de l’anatomie du lapin pour savoir où un rayon lumineux allant de la caméra à la patte émergerait de l’autre côté du lapin. Ce point peut être visible dans l’autre image (prise du côté droit) et, si c’est le cas, il pourrait être utilisé via la triangulation pour calculer les distances dans la troisième dimension.

La correspondance virtuelle, en d’autres termes, permet de prendre un point de la première image sur le flanc gauche du lapin et de le relier à un point sur le flanc droit invisible du lapin. “L’avantage ici est que vous n’avez pas besoin d’images qui se chevauchent pour continuer”, note Ma. “En regardant à travers l’objet et en sortant par l’autre extrémité, cette technique fournit des points communs avec lesquels travailler qui n’étaient pas disponibles au départ.” Et de cette façon, les contraintes imposées à la méthode conventionnelle peuvent être contournées.

On pourrait se demander quelle connaissance préalable est nécessaire pour que cela fonctionne, car si vous deviez connaître la forme de tout dans l’image dès le départ, aucun calcul ne serait nécessaire. L’astuce que Ma et ses collègues emploient consiste à utiliser certains objets familiers dans une image – comme la forme humaine – pour servir d'”ancre”, et ils ont mis au point des méthodes pour utiliser notre connaissance de la forme humaine pour aider déterminez les poses de la caméra et, dans certains cas, déduisez la profondeur de l’image. De plus, explique Ma, “les connaissances préalables et le bon sens qui sont intégrés à nos algorithmes sont d’abord capturés et codés par des réseaux de neurones”.

L’objectif ultime de l’équipe est beaucoup plus ambitieux, dit Ma. “Nous voulons fabriquer des ordinateurs capables de comprendre le monde en trois dimensions, tout comme les humains.” Cet objectif est encore loin d’être atteint, reconnaît-il. “Mais pour aller au-delà d’où nous en sommes aujourd’hui et construire un système qui agit comme des humains, nous avons besoin d’un cadre plus stimulant. En d’autres termes, nous devons développer des ordinateurs capables non seulement d’interpréter des images fixes, mais aussi de comprendre de courts clips vidéo et éventuellement des longs métrages.”

Une scène du film “Good Will Hunting” démontre ce qu’il a en tête. Le public voit Matt Damon et Robin Williams de dos, assis sur un banc qui surplombe un étang du Public Garden de Boston. Le plan suivant, pris du côté opposé, offre des vues frontales (bien qu’entièrement habillées) de Damon et Williams avec un arrière-plan entièrement différent. Tous ceux qui regardent le film savent immédiatement qu’ils regardent les deux mêmes personnes, même si les deux plans n’ont rien en commun. Les ordinateurs ne peuvent pas encore faire ce saut conceptuel, mais Ma et ses collègues travaillent dur pour rendre ces machines plus habiles et, du moins en ce qui concerne la vision, plus comme nous.

Les travaux de l’équipe seront présentés la semaine prochaine lors de la conférence sur la vision par ordinateur et la reconnaissance de formes.


La recherche sur l’illusion d’optique donne un aperçu de la façon dont nous percevons le monde


Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Technique de vision par ordinateur pour améliorer la compréhension 3D des images 2D (20 juin 2022) récupéré le 20 juin 2022 sur https://techxplore.com/news/2022-06-vision-technique-3d-2d-images.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.