Transformer une seule photo en vidéo

photon

Crédit : CC0 Domaine public

Parfois, les photos ne peuvent pas vraiment capturer une scène. À quel point cette photo de vacances des chutes du Niagara serait-elle plus épique si l’eau bougeait ?

Des chercheurs de l’Université de Washington ont développé une méthode d’apprentissage en profondeur qui peut faire exactement cela : si on leur donne une seule photo d’une chute d’eau, le système crée une vidéo montrant cette eau en cascade. Il ne manque plus que le rugissement de l’eau et la sensation des embruns sur votre visage.

La méthode de l’équipe peut animer n’importe quel matériau en mouvement, y compris la fumée et les nuages. Cette technique produit une courte vidéo qui tourne en boucle de manière transparente, donnant l’impression d’un mouvement sans fin. Les chercheurs présenteront cette approche le 22 juin lors de la Conférence sur la vision par ordinateur et la reconnaissance de formes.

« Une image capture un moment figé dans le temps. Mais beaucoup d’informations sont perdues dans une image statique. Qu’est-ce qui a conduit à ce moment et comment les choses ont-elles changé ? Pensez à la dernière fois que vous vous êtes retrouvé obsédé par quelque chose de vraiment intéressant ; les chances sont , ce n’était pas totalement statique », a déclaré l’auteur principal Aleksander Holynski, doctorant à la Paul G. Allen School of Computer Science & Engineering.

« La particularité de notre méthode est qu’elle ne nécessite aucune entrée de l’utilisateur ni aucune information supplémentaire », a déclaré Holynski. « Tout ce dont vous avez besoin, c’est d’une image. Et elle produit en sortie une vidéo haute résolution en boucle transparente qui ressemble souvent à une vraie vidéo. »







Les chercheurs de l’UW ont développé une méthode d’apprentissage en profondeur qui peut produire une vidéo réaliste et en boucle à partir d’une seule photo. Voici le B-roll : exemples de Palouse Falls et Snoqualmie Falls dans l’état de Washington. Crédit : Université de Washington

Développer une méthode qui transforme une seule photo en une vidéo crédible a été un défi pour le domaine.

« Cela vous oblige effectivement à prédire l’avenir », a déclaré Holynski. « Et dans le monde réel, il y a des possibilités presque infinies de ce qui pourrait arriver ensuite. »

Le système de l’équipe se compose de deux parties : d’abord, il prédit comment les choses se déplaçaient lorsqu’une photo a été prise, puis utilise ces informations pour créer l’animation.

Pour estimer le mouvement, l’équipe a formé un réseau de neurones avec des milliers de vidéos de cascades, de rivières, d’océans et d’autres matériaux avec un mouvement fluide. Le processus de formation consistait à demander au réseau de deviner le mouvement d’une vidéo lorsqu’on ne lui donnait que la première image. Après avoir comparé sa prédiction avec la vidéo réelle, le réseau a appris à identifier des indices – des ondulations dans un flux, par exemple – pour l’aider à prédire ce qui s’est passé ensuite. Ensuite, le système de l’équipe utilise ces informations pour déterminer si et comment chaque pixel doit se déplacer.

Les chercheurs ont essayé d’utiliser une technique appelée « splatting » pour animer la photo. Cette méthode déplace chaque pixel en fonction de son mouvement prédit. Mais cela a créé un problème.







Crédit : Université de Washington

« Pensez à une cascade qui coule », a déclaré Holynski. « Si vous déplacez simplement les pixels vers le bas de la cascade, après quelques images de la vidéo, vous n’aurez plus de pixels en haut ! »

L’équipe a donc créé un « splatting symétrique ». Essentiellement, la méthode prédit à la fois l’avenir et le passé d’une image, puis les combine en une seule animation.

« En repensant à l’exemple de la cascade, si nous passons dans le passé, les pixels remonteront la cascade. Nous commencerons donc à voir un trou près du fond », a déclaré Holynski. « Nous intégrons les informations de ces deux animations afin qu’il n’y ait jamais de trous flagrants dans nos images déformées. »

Enfin, les chercheurs voulaient que leur animation se déroule en boucle de manière transparente pour créer un aspect de mouvement continu. Le réseau d’animation suit quelques astuces pour garder les choses propres, notamment la transition de différentes parties de l’image à différents moments et la décision de la vitesse ou de la lenteur de mélange de chaque pixel en fonction de son environnement.

La méthode de l’équipe fonctionne mieux pour les objets avec un mouvement fluide prévisible. Actuellement, la technologie a du mal à prédire comment les réflexions devraient se déplacer ou comment l’eau déforme l’apparence des objets en dessous.

« Quand nous voyons une cascade, nous savons comment l’eau doit se comporter. Il en va de même pour le feu ou la fumée. Ces types de mouvements obéissent au même ensemble de lois physiques, et il y a généralement des indices dans l’image qui nous indiquent comment les choses devraient bouger », a déclaré Holynski. « Nous aimerions étendre notre travail pour opérer sur un plus large éventail d’objets, comme animer les cheveux d’une personne au vent. J’espère qu’à terme, les images que nous partageons avec nos amis et notre famille ne seront pas des images statiques . Au lieu de cela, ce seront toutes des animations dynamiques comme celles produites par notre méthode. »


Une nouvelle approche d’apprentissage automatique redonne vie aux photos numériques


Plus d’information:
Conférence sur la vision par ordinateur et la reconnaissance de formes : cvpr2021.thecvf.com/

Fourni par l’Université de Washington

Citation: Transformer une seule photo en vidéo (2021, 15 juin) récupéré le 15 juin 2021 sur https://techxplore.com/news/2021-06-photo-video.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.