La Gen-2 de Runway montre les limites de la technologie texte-vidéo d’aujourd’hui

Dans une récente interview avec Collider, Joe Russo, le réalisateur de films phares de Marvel comme “Avengers : Endgame”, a prédit que, d’ici deux ans, l’IA sera en mesure de créer un film à part entière.

Cela dirait que c’est un calendrier plutôt optimiste. Mais on se rapproche.

Cette semaine, Runway, une startup d’intelligence artificielle soutenue par Google qui a aidé à développer le générateur d’images AI Stable Diffusion, a publié Gen-2, un modèle qui génère des vidéos à partir d’invites de texte ou d’une image existante. (Gen-2 était auparavant en accès limité et sur liste d’attente.) Le suivi du modèle Gen-1 de Runway lancé en février, Gen-2 est l’un des premiers modèles de texte en vidéo disponibles dans le commerce.

“Disponible dans le commerce” est une distinction importante. Le texte en vidéo, étant la prochaine frontière logique de l’IA générative après les images et le texte, devient un domaine d’intérêt plus important, en particulier parmi les géants de la technologie, dont plusieurs ont fait la démonstration de modèles de texte en vidéo au cours de l’année écoulée. Mais ces modèles restent fermement au stade de la recherche, inaccessibles à tous sauf à quelques scientifiques et ingénieurs des données.

Bien sûr, le premier n’est pas nécessairement meilleur.

Par curiosité personnelle et pour vous servir, chers lecteurs, j’ai exécuté quelques invites via Gen-2 pour avoir une idée de ce que le modèle peut – et ne peut pas – accomplir. (Runway fournit actuellement environ 100 secondes de génération vidéo gratuite.) Il n’y avait pas beaucoup de méthode à ma folie, mais j’ai essayé de capturer une gamme d’angles, de genres et de styles qu’un réalisateur, professionnel ou fauteuil, pourrait aimer voir sur le grand écran – ou sur un ordinateur portable, selon le cas.

Une limitation de Gen-2 qui est devenue immédiatement évidente est la fréquence d’images des vidéos de quatre secondes générées par le modèle. C’est assez bas et sensiblement ainsi, au point où c’est presque comme un diaporama par endroits.

Piste Gen-2

Crédits image : Piste

Ce qui n’est pas clair, c’est s’il s’agit d’un problème avec la technologie ou d’une tentative de Runway d’économiser sur les coûts de calcul. Dans tous les cas, cela fait de Gen-2 une proposition plutôt peu attrayante dès le départ pour les éditeurs qui espèrent éviter le travail de post-production.

Au-delà du problème de fréquence d’images, j’ai constaté que les clips générés par Gen-2 ont tendance à partager un certain grain ou flou en commun, comme s’ils avaient appliqué une sorte de filtre Instagram à l’ancienne. D’autres artefacts se produisent également à certains endroits, comme la pixellisation autour des objets lorsque la “caméra” (faute d’un meilleur mot) les entoure ou zoome rapidement vers eux.

Comme pour de nombreux modèles génératifs, Gen-2 n’est pas non plus particulièrement cohérent en ce qui concerne la physique ou l’anatomie. Comme quelque chose d’évoqué par un surréaliste, les bras et les jambes des gens dans les vidéos produites par Gen-2 se fondent et se séparent à nouveau tandis que les objets se fondent dans le sol et disparaissent, leurs reflets déformés et déformés. Et – selon l’invite – les visages peuvent ressembler à des poupées, avec des yeux brillants et sans émotion et une peau pâteuse qui évoque un plastique bon marché.

Piste Gen-2

Crédits image : Piste

Pour empiler plus haut, il y a le problème du contenu. Gen-2 semble avoir du mal à comprendre les nuances, s’accrochant à des descripteurs particuliers dans les invites tout en ignorant les autres, apparemment au hasard.

Piste Gen-2

Crédits image : Piste

L’une des invites que j’ai essayées, “Une vidéo d’une utopie sous-marine, tournée avec un vieil appareil photo, dans le style d’un film” found footage “, n’a provoqué aucune utopie de ce type – seulement ce qui ressemblait à une plongée à la première personne à travers un récif corallien anonyme. Gen-2 a également eu du mal avec mes autres invites, ne parvenant pas à générer un zoom avant pour une invite appelant spécifiquement à un «zoom lent» et ne clouant pas tout à fait le look de votre astronaute moyen.

Les problèmes pourraient-ils résider dans l’ensemble de données d’entraînement de Gen-2 ? Peut-être.

Gen-2, comme Stable Diffusion, est un modèle de diffusion, ce qui signifie qu’il apprend à soustraire progressivement le bruit d’une image de départ entièrement composée de bruit pour la rapprocher, étape par étape, de l’invite. Les modèles de diffusion apprennent par la formation sur des millions à des milliards d’exemples ; dans un article académique détaillant l’architecture de Gen-2, Runway indique que le modèle a été formé sur un ensemble de données internes de 240 millions d’images et 6,4 millions de clips vidéo.

La diversité des exemples est essentielle. Si l’ensemble de données ne contient pas beaucoup de séquences d’animation, par exemple, le modèle – dépourvu de points de référence – ne pourra pas générer d’animations de qualité raisonnable. (Bien sûr, l’animation étant un vaste domaine, même si le jeu de données a fait avoir des clips d’anime ou d’animation dessinée à la main, le modèle ne se généraliserait pas nécessairement bien pour tous types d’animations.)

Piste Gen-2

Crédits image : Piste

Du côté positif, Gen-2 réussit un test de biais au niveau de la surface. Alors que les modèles d’IA génératifs comme DALL-E 2 se sont avérés renforcer les préjugés sociétaux, générant des images de postes d’autorité – comme “PDG ou “directeur” – qui représentent principalement des hommes blancs, Gen-2 était le plus petit peu plus diversifié dans le contenu il a généré – du moins dans mes tests.

Piste Gen-2

Crédits image : Piste

Alimenté par l’invite “Une vidéo d’un PDG entrant dans une salle de conférence”, Gen-2 a généré une vidéo d’hommes et de femmes (quoique plus d’hommes que de femmes) assis autour de quelque chose comme une table de conférence. La sortie de l’invite “Une vidéo d’un médecin travaillant dans un bureau”, quant à elle, représente une femme médecin d’apparence vaguement asiatique derrière un bureau.

Les résultats pour toute invite contenant le mot «infirmière» étaient cependant moins prometteurs, montrant systématiquement de jeunes femmes blanches. Idem pour l’expression “une personne qui sert des tables”. De toute évidence, il y a du travail à faire.

La conclusion de tout cela, pour moi, est que Gen-2 est plus une nouveauté ou un jouet qu’un outil véritablement utile dans n’importe quel flux de travail vidéo. Les sorties pourraient-elles être éditées en quelque chose de plus cohérent ? Peut-être. Mais selon la vidéo, cela nécessiterait potentiellement plus de travail que de filmer en premier lieu.

Ce n’est pas pour être aussi dédaigneux de la technologie. C’est impressionnant ce que Runway a fait, ici, battant efficacement les géants de la technologie au coup de poing texte-vidéo. Et je suis sûr que certains utilisateurs trouveront des utilisations pour Gen-2 qui ne nécessitent pas de photoréalisme – ou beaucoup de personnalisation. (Le PDG de Runway, Cristóbal Valenzuela, a récemment déclaré à Bloomberg qu’il considérait Gen-2 comme un moyen d’offrir aux artistes et aux designers un outil qui peut les aider dans leurs processus créatifs.)

Piste Gen-2

Crédits image : Piste

J’ai fait moi-même. Gen-2 peut en effet comprendre une gamme de styles, comme l’anime et la claymation, qui se prêtent au framerate inférieur. Avec un peu de travail de bricolage et de montage, il ne serait pas impossible d’enchaîner quelques clips pour créer une pièce narrative.

De peur que le potentiel de deepfakes ne vous préoccupe, Runway dit qu’il utilise une combinaison d’IA et de modération humaine pour empêcher les utilisateurs de générer des vidéos contenant de la pornographie, du contenu violent ou qui violent les droits d’auteur. Je peux confirmer qu’il y a un filtre de contenu – un excès de zèle en fait. Mais bien sûr, ce ne sont pas des méthodes infaillibles, nous devrons donc voir dans quelle mesure elles fonctionnent dans la pratique.

Piste Gen-2

Crédits image : Piste

Mais au moins pour l’instant, les cinéastes, les animateurs et les artistes et éthiciens CGI peuvent dormir tranquilles. Il faudra au moins quelques itérations sur toute la ligne avant que la technologie de Runway ne soit sur le point de générer des séquences de qualité cinématographique – en supposant qu’elle y parvienne un jour.

rewrite this content and keep HTML tags Dans une récente interview avec Collider, Joe Russo, le réalisateur de films phares de Marvel comme “Avengers : Endgame”, a prédit que, d’ici deux ans, l’IA sera en mesure de créer un film à part entière. Cela dirait que c’est un calendrier plutôt optimiste. Mais on se rapproche. Cette semaine, Runway, une startup d’intelligence artificielle soutenue par Google qui a aidé à développer le générateur d’images AI Stable Diffusion, a publié Gen-2, un modèle qui génère des vidéos à partir d’invites de texte ou d’une image existante. (Gen-2 était auparavant en accès limité et sur liste d’attente.) Le suivi du modèle Gen-1 de Runway lancé en février, Gen-2 est l’un des premiers modèles de texte en vidéo disponibles dans le commerce. “Disponible dans le commerce” est une distinction importante. Le texte en vidéo, étant la prochaine frontière logique de l’IA générative après les images et le texte, devient un domaine d’intérêt plus important, en particulier parmi les géants de la technologie, dont plusieurs ont fait la démonstration de modèles de texte en vidéo au cours de l’année écoulée. Mais ces modèles restent fermement au stade de la recherche, inaccessibles à tous sauf à quelques scientifiques et ingénieurs des données. Bien sûr, le premier n’est pas nécessairement meilleur. Par curiosité personnelle et pour vous servir, chers lecteurs, j’ai exécuté quelques invites via Gen-2 pour avoir une idée de ce que le modèle peut – et ne peut pas – accomplir. (Runway fournit actuellement environ 100 secondes de génération vidéo gratuite.) Il n’y avait pas beaucoup de méthode à ma folie, mais j’ai essayé de capturer une gamme d’angles, de genres et de styles qu’un réalisateur, professionnel ou fauteuil, pourrait aimer voir sur le grand écran – ou sur un ordinateur portable, selon le cas. Une limitation de Gen-2 qui est devenue immédiatement évidente est la fréquence d’images des vidéos de quatre secondes générées par le modèle. C’est assez bas et sensiblement ainsi, au point où c’est presque comme un diaporama par endroits. Crédits image : Piste Ce qui n’est pas clair, c’est s’il s’agit d’un problème avec la technologie ou d’une tentative de Runway d’économiser sur les coûts de calcul. Dans tous les cas, cela fait de Gen-2 une proposition plutôt peu attrayante dès le départ pour les éditeurs qui espèrent éviter le travail de post-production. Au-delà du problème de fréquence d’images, j’ai constaté que les clips générés par Gen-2 ont tendance à partager un certain grain ou flou en commun, comme s’ils avaient appliqué une sorte de filtre Instagram à l’ancienne. D’autres artefacts se produisent également à certains endroits, comme la pixellisation autour des objets lorsque la “caméra” (faute d’un meilleur mot) les entoure ou zoome rapidement vers eux. Comme pour de nombreux modèles génératifs, Gen-2 n’est pas non plus particulièrement cohérent en ce qui concerne la physique ou l’anatomie. Comme quelque chose d’évoqué par un surréaliste, les bras et les jambes des gens dans les vidéos produites par Gen-2 se fondent et se séparent à nouveau tandis que les objets se fondent dans le sol et disparaissent, leurs reflets déformés et déformés. Et – selon l’invite – les visages peuvent ressembler à des poupées, avec des yeux brillants et sans émotion et une peau pâteuse qui évoque un plastique bon marché. Crédits image : Piste Pour empiler plus haut, il y a le problème du contenu. Gen-2 semble avoir du mal à comprendre les nuances, s’accrochant à des descripteurs particuliers dans les invites tout en ignorant les autres, apparemment au hasard. Crédits image : Piste L’une des invites que j’ai essayées, “Une vidéo d’une utopie sous-marine, tournée avec un vieil appareil photo, dans le style d’un film” found footage “, n’a provoqué aucune utopie de ce type – seulement ce qui ressemblait à une plongée à la première personne à travers un récif corallien anonyme. Gen-2 a également eu du mal avec mes autres invites, ne parvenant pas à générer un zoom avant pour une invite appelant spécifiquement à un «zoom lent» et ne clouant pas tout à fait le look de votre astronaute moyen. Les problèmes pourraient-ils résider dans l’ensemble de données d’entraînement de Gen-2 ? Peut-être. Gen-2, comme Stable Diffusion, est un modèle de diffusion, ce qui signifie qu’il apprend à soustraire progressivement le bruit d’une image de départ entièrement composée de bruit pour la rapprocher, étape par étape, de l’invite. Les modèles de diffusion apprennent par la formation sur des millions à des milliards d’exemples ; dans un article académique détaillant l’architecture de Gen-2, Runway indique que le modèle a été formé sur un ensemble de données internes de 240 millions d’images et 6,4 millions de clips vidéo. La diversité des exemples est essentielle. Si l’ensemble de données ne contient pas beaucoup de séquences d’animation, par exemple, le modèle – dépourvu de points de référence – ne pourra pas générer d’animations de qualité raisonnable. (Bien sûr, l’animation étant un vaste domaine, même si le jeu de données a fait avoir des clips d’anime ou d’animation dessinée à la main, le modèle ne se généraliserait pas nécessairement bien pour tous types d’animations.) Crédits image : Piste Du côté positif, Gen-2 réussit un test de biais au niveau de la surface. Alors que les modèles d’IA génératifs comme DALL-E 2 se sont avérés renforcer les préjugés sociétaux, générant des images de postes d’autorité – comme “PDG ou “directeur” – qui représentent principalement des hommes blancs, Gen-2 était le plus petit peu plus diversifié dans le contenu il a généré – du moins dans mes tests. Crédits image : Piste Alimenté par l’invite “Une vidéo d’un PDG entrant dans une salle de conférence”, Gen-2 a généré une vidéo d’hommes et de femmes (quoique plus d’hommes que de femmes) assis autour de quelque chose comme une table de conférence. La sortie de l’invite “Une vidéo d’un médecin travaillant dans un bureau”, quant à elle, représente une femme médecin d’apparence vaguement asiatique derrière un bureau. Les résultats pour toute invite contenant le mot «infirmière» étaient cependant moins prometteurs, montrant systématiquement de jeunes femmes blanches. Idem pour l’expression “une personne qui sert des tables”. De toute évidence, il y a du travail à faire. La conclusion de tout cela, pour moi, est que Gen-2 est plus une nouveauté ou un jouet qu’un outil véritablement utile dans n’importe quel flux de travail vidéo. Les sorties pourraient-elles être éditées en quelque chose de plus cohérent ? Peut-être. Mais selon la vidéo, cela nécessiterait potentiellement plus de travail que de filmer en premier lieu. Ce n’est pas pour être aussi dédaigneux de la technologie. C’est impressionnant ce que Runway a fait, ici, battant efficacement les géants de la technologie au coup de poing texte-vidéo. Et je suis sûr que certains utilisateurs trouveront des utilisations pour Gen-2 qui ne nécessitent pas de photoréalisme – ou beaucoup de personnalisation. (Le PDG de Runway, Cristóbal Valenzuela, a récemment déclaré à Bloomberg qu’il considérait Gen-2 comme un moyen d’offrir aux artistes et aux designers un outil qui peut les aider dans leurs processus créatifs.) Crédits image : Piste J’ai fait moi-même. Gen-2 peut en effet comprendre une gamme de styles, comme l’anime et la claymation, qui se prêtent au framerate inférieur. Avec un peu de travail de bricolage et de montage, il ne serait pas impossible d’enchaîner quelques clips pour créer une pièce narrative. De peur que le potentiel de deepfakes ne vous préoccupe, Runway dit qu’il utilise une combinaison d’IA et de modération humaine pour empêcher les utilisateurs de générer des vidéos contenant de la pornographie, du contenu violent ou qui violent les droits d’auteur. Je peux confirmer qu’il y a un filtre de contenu – un excès de zèle en fait. Mais bien sûr, ce ne sont pas des méthodes infaillibles, nous devrons donc voir dans quelle mesure elles fonctionnent dans la pratique. Crédits image : Piste Mais au moins pour l’instant, les cinéastes, les animateurs et les artistes et éthiciens CGI peuvent dormir tranquilles. Il faudra au moins quelques itérations sur toute la ligne avant que la technologie de Runway ne soit sur le point de générer des séquences de qualité cinématographique – en supposant qu’elle y parvienne un jour.

Laisser un commentaire