Enseigner l’IA pour voir la profondeur dans les photographies et les peintures

Enseigner l'IA pour voir la profondeur dans les photographies et les peintures

Des chercheurs du laboratoire de photographie informatique de l’Université Simon Fraser à SFU enseignent avec succès à l’intelligence artificielle comment déterminer la profondeur à partir d’une seule photographie. Crédit : SFU

Les chercheurs du laboratoire de photographie informatique de SFU espèrent donner aux ordinateurs un avantage visuel que nous, les humains, tenons pour acquis : la capacité de voir la profondeur dans les photographies. Alors que les humains peuvent naturellement déterminer à quel point les objets sont proches ou éloignés d’un seul point de vue, comme une photographie ou une peinture, c’est un défi pour les ordinateurs, mais un défi qu’ils pourraient bientôt surmonter.

Des chercheurs ont récemment publié leurs travaux améliorant un processus appelé estimation de profondeur monoculaire, une technique qui enseigne aux ordinateurs comment voir la profondeur à l’aide de l’apprentissage automatique.

“Lorsque nous regardons une image, nous pouvons déterminer la distance relative des objets en regardant leur taille, leur position et leur relation les uns par rapport aux autres”, explique Mahdi Miangoleh, un étudiant à la maîtrise travaillant dans le laboratoire. “Cela nécessite de reconnaître les objets d’une scène et de connaître la taille des objets dans la vie réelle. Cette tâche à elle seule est un sujet de recherche actif pour les réseaux de neurones.”

Malgré les progrès réalisés ces dernières années, les efforts existants pour fournir des résultats haute résolution pouvant transformer une image en un espace tridimensionnel (3D) ont échoué.

Pour contrer cela, le laboratoire a reconnu le potentiel inexploité des modèles de réseaux de neurones existants dans la littérature. La recherche proposée explique le manque de résultats à haute résolution dans les méthodes actuelles par les limites des réseaux de neurones convolutifs. Malgré les avancées majeures de ces dernières années, les réseaux de neurones ont encore une capacité relativement faible pour générer de nombreux détails à la fois.






Une autre limitation est la quantité de scène que ces réseaux peuvent « regarder » à la fois, ce qui détermine la quantité d’informations que le réseau neuronal peut utiliser pour comprendre des scènes complexes. En travaillant pour augmenter la résolution de leurs estimations visuelles, les chercheurs permettent désormais de créer des rendus 3D détaillés qui semblent réalistes à l’œil humain. Ces “cartes de profondeur” sont utilisées pour créer des rendus 3D de scènes et simuler le mouvement de la caméra en infographie.

“Notre méthode analyse une image et optimise le processus en regardant le contenu de l’image en fonction des limitations des architectures actuelles”, explique Ph.D. étudiant Sebastian Dille. “Nous donnons notre image d’entrée à notre réseau de neurones sous de nombreuses formes différentes, pour créer autant de détails que le modèle le permet tout en préservant une géométrie réaliste.”

L’équipe a également publié un explicatif convivial de la théorie derrière la méthode, qui est disponible sur YouTube.

« Avec les cartes de profondeur haute résolution que l’équipe est capable de développer pour des photographies du monde réel, les artistes et les créateurs de contenu peuvent désormais transférer immédiatement leur photographie ou leur œuvre dans un monde 3D riche », explique Yağız Aksoy, professeur d’informatique et directeur de laboratoire. , dont l’équipe a collaboré avec les chercheurs Sylvain Paris et Long Mai, d’Adobe Research.






Les outils permettent aux artistes de transformer l’art 2D en mondes 3D

Des artistes internationaux utilisent déjà les applications rendues possibles par les recherches du laboratoire d’Aksoy. Akira Saito, un artiste visuel basé au Japon, crée des vidéos qui emmènent les téléspectateurs dans des mondes 3D fantastiques rêvés d’œuvres d’art 2D. Pour ce faire, il combine des outils tels que Houdini, un logiciel d’animation par ordinateur, avec la carte de profondeur générée par Aksoy et son équipe.

Les créateurs de contenu créatif sur TikTok utilisent la recherche pour s’exprimer de nouvelles façons.

“C’est un grand plaisir de voir des artistes indépendants utiliser notre technologie à leur manière”, déclare Aksoy, dont le laboratoire prévoit d’étendre ce travail aux vidéos et de développer de nouveaux outils qui rendront les cartes de profondeur plus utiles pour les artistes.

“Nous avons fait de grands progrès dans la vision par ordinateur et l’infographie ces dernières années, mais l’adoption de ces nouvelles technologies d’IA par la communauté des artistes doit être un processus organique, et cela prend du temps.”


La réalité virtuelle devient plus réelle


Plus d’information:
S. Mahdi et al, Boosting Monoocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution Merging, Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (2021) : openaccess.thecvf.com/content/ … CVPR_2021_paper.html

Projet Github : yaksoy.github.io/highresdepth/

Fourni par l’Université Simon Fraser

Citation: Enseigner l’IA à voir la profondeur dans les photographies et les peintures (2021, 12 août) récupéré le 12 août 2021 sur https://techxplore.com/news/2021-08-ai-depth.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.