Une nouvelle approche d’apprentissage automatique redonne vie aux photos numériques

Une nouvelle approche d'apprentissage automatique redonne vie aux photos numériques

Le processus de synthèse de vue d’image unique peut également être utilisé pour générer des images recentrées (illustrées ci-dessus). Crédits: Nima Kalantari

Chaque jour, des milliards de photos et de vidéos sont publiées sur diverses applications de réseaux sociaux. Le problème avec les images standard prises par un smartphone ou un appareil photo numérique est qu’elles ne capturent une scène que d’un point de vue spécifique. Mais en le regardant en réalité, nous pouvons nous déplacer et l’observer sous différents angles. Les informaticiens s’efforcent de fournir une expérience immersive aux utilisateurs qui leur permettrait d’observer une scène de différents points de vue, mais cela nécessite un équipement de caméra spécialisé qui n’est pas facilement accessible à la personne moyenne.

Pour faciliter le processus, le Dr Nima Kalantari, professeur au Département d’informatique et d’ingénierie de l’Université Texas A&M, et l’étudiant diplômé Qinbo Li ont développé une approche basée sur l’apprentissage automatique qui permettrait aux utilisateurs de prendre une seule photo et de l’utiliser. pour générer de nouvelles vues de la scène.

« L’avantage de notre approche est que nous ne sommes plus limités à capturer une scène d’une manière particulière », a déclaré Kalantari. « Nous pouvons télécharger et utiliser n’importe quelle image sur Internet, même celles qui datent de 100 ans, et essentiellement la ramener à la vie et la regarder sous différents angles. »

De plus amples détails sur leur travail ont été publiés dans la revue Association pour les transactions de machines informatiques sur les graphiques.

La synthèse de vues est le processus de génération de nouvelles vues d’un objet ou d’une scène à l’aide d’images prises à partir de points de vue donnés. Pour créer de nouvelles images de vue, les informations relatives à la distance entre les objets de la scène sont utilisées pour créer une photo synthétique prise à partir d’une caméra virtuelle placée à différents points de la scène.

Au cours des dernières décennies, plusieurs approches ont été développées pour synthétiser ces nouvelles images de vue, mais beaucoup d’entre elles nécessitent que l’utilisateur capture manuellement plusieurs photos de la même scène à partir de différents points de vue simultanément avec des configurations et du matériel spécifiques, ce qui est difficile et temporel. consommant. Cependant, ces approches n’ont pas été conçues pour générer de nouvelles images de vue à partir d’une seule image d’entrée. Pour simplifier le processus, les chercheurs ont proposé de faire le même processus mais avec une seule image.

«Lorsque vous avez plusieurs images, vous pouvez estimer l’emplacement des objets dans la scène grâce à un processus appelé triangulation», a déclaré Kalantari. « Cela signifie que vous pouvez dire, par exemple, qu’il y a une personne devant la caméra avec une maison derrière elle, puis des montagnes en arrière-plan. Ceci est extrêmement important pour la synthèse des vues. Mais quand vous avez une seule image, tous cette information doit être déduite de cette seule image, ce qui est difficile.  »

Avec la montée récente de l’apprentissage en profondeur, qui est un sous-domaine de l’apprentissage automatique où les réseaux de neurones artificiels apprennent à partir de grandes quantités de données pour résoudre des problèmes complexes, le problème de la synthèse de vue d’image unique a attiré une attention considérable. Bien que cette approche soit plus accessible pour l’utilisateur, c’est une application difficile à gérer pour le système car il n’y a pas suffisamment d’informations pour estimer l’emplacement des objets dans la scène.

Pour former un réseau d’apprentissage en profondeur à générer une nouvelle vue basée sur une seule image d’entrée, ils lui ont montré un grand ensemble d’images et leurs nouvelles images de vue correspondantes. Bien qu’il s’agisse d’un processus ardu, le réseau apprend à le gérer au fil du temps. Un aspect essentiel de cette approche est de modéliser la scène d’entrée pour rendre le processus de formation plus simple à exécuter pour le réseau. Mais dans leurs expériences initiales, Kalantari et Li n’avaient aucun moyen de le faire.

« Nous avons réalisé que la représentation des scènes est d’une importance cruciale pour former efficacement le réseau », a déclaré Kalantari.

Pour rendre le processus de formation plus gérable, les chercheurs ont converti l’image d’entrée en une image multiplan, qui est un type de représentation 3D en couches. Tout d’abord, ils ont décomposé l’image en plans à différentes profondeurs en fonction des objets de la scène. Ensuite, pour générer une photo de la scène à partir d’un nouveau point de vue, ils ont déplacé les plans les uns devant les autres d’une manière spécifique et les ont combinés. En utilisant cette représentation, le réseau apprend à déduire l’emplacement des objets dans la scène.

Pour former efficacement le réseau, Kalantari et Li l’ont présenté à un ensemble de données de plus de 2000 scènes uniques contenant divers objets. Ils ont démontré que leur approche pouvait produire de nouvelles images de vue de haute qualité d’une variété de scènes qui sont meilleures que les méthodes de pointe précédentes.

Les chercheurs travaillent actuellement à étendre leur approche pour synthétiser des vidéos. Comme les vidéos sont essentiellement un ensemble d’images individuelles lues rapidement en séquence, elles peuvent appliquer leur approche pour générer de nouvelles vues de chacune de ces images indépendamment à des moments différents. Mais lorsque la vidéo nouvellement créée est lue, l’image scintille et n’est pas cohérente.

«Nous travaillons à améliorer cet aspect de l’approche pour la rendre appropriée pour générer des vidéos à partir de différents points de vue», a déclaré Kalantari.

Le procédé de synthèse de vue d’image unique peut également être utilisé pour générer des images recentrées. Il pourrait également être utilisé pour des applications de réalité virtuelle et de réalité augmentée telles que les jeux vidéo et divers types de logiciels qui vous permettent d’explorer un environnement visuel particulier.


Les chercheurs reviennent sur la vague virale du mannequin pour explorer la profondeur


Plus d’information:
Qinbo Li et coll. Synthétiser le champ lumineux à partir d’une seule image avec MPI variable et fusion de deux réseaux, Transactions ACM sur les graphiques (2020). DOI: 10.1145 / 3414685.3417785

Fourni par Texas A&M University College of Engineering

Citation: Une nouvelle approche d’apprentissage automatique redonne vie aux photos numériques (2021, 4 mai) récupéré le 4 mai 2021 sur https://techxplore.com/news/2021-05-machine-learning-approach-digital-photos-life.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.