Un modèle pour générer des images artistiques basées sur des descriptions textuelles

Un modèle pour générer des images artistiques basées sur des descriptions textuelles

Crédit : Tian & Franchitti.

Les outils d’intelligence artificielle (IA) se sont avérés très utiles pour accomplir un large éventail de tâches. Bien qu’ils soient principalement utilisés pour augmenter la productivité ou simplifier les processus quotidiens, ils se sont également révélés prometteurs pour générer automatiquement des textes créatifs et des images artistiques.

Des chercheurs de l’Université de Waterloo et du New York University Courant Institute ont récemment créé un outil d’intelligence artificielle capable de générer automatiquement des images artistiques uniques basées sur des descriptions textuelles. Leur méthode, présentée dans un article pré-publié sur arXiv, est basée sur un réseau antagoniste générateur de mémoire dynamique (DM-GAN), un modèle basé sur deux réseaux de neurones artificiels qui fonctionnent ensemble pour générer des images de plus en plus convaincantes.

“Nous créons une solution de bout en bout qui peut générer des images artistiques à partir de descriptions textuelles”, ont déclaré Qinghe Tian et Pr. Jean-Claude Franchitti a écrit dans leur article.

L’idée clé derrière les travaux récents de Tian et Franchitti était de créer un modèle qui pourrait utiliser les descriptions textuelles fournies par les utilisateurs pour produire des images artistiques correspondant à ces descriptions. Cela permettrait aux personnes handicapées qui les empêchent de dessiner efficacement et à d’autres personnes qui ne sont pas très douées en dessin de produire de belles images artistiques représentant des choses spécifiques.

Cependant, la plupart des ensembles de données existants pour la formation de modèles génératifs contiennent des images ou des textes étiquetés, plutôt que des images associées à leurs descriptions textuelles. Par conséquent, les chercheurs ont dû trouver une autre façon de former leur modèle.

“En raison du manque d’ensembles de données avec une description textuelle et des images artistiques appariées, il est difficile de former directement un algorithme capable de créer de l’art basé sur la saisie de texte”, expliquent les chercheurs dans leur article. “Pour résoudre ce problème, nous avons divisé notre tâche en trois étapes.”

Premièrement, les chercheurs ont utilisé leur modèle DM-GAN pour générer une image réaliste qui représente une description textuelle. Par la suite, ils ont utilisé ResNet, un réseau de neurones artificiels à plusieurs couches, pour classer l’image produite par le DM-GAN dans l’une des catégories de genre décrites par l’ensemble de données WikiArt.

L’ensemble de données WikiArt, qui a souvent été utilisé pour former des méthodes d’apprentissage en profondeur, contient plus de 40 000 peintures artistiques produites par 195 artistes. Après avoir classé l’image produite par DM-GAN dans l’une des catégories de genre décrites par WikiArt, le modèle peut sélectionner un style de peinture compatible avec cette catégorie de genre et le transférer sur l’image générée, à l’aide d’un réseau de stylisation artistique neuronale.

Les chercheurs ont évalué leur méthode multi-framework dans une série d’expériences d’essai initiales. Bien qu’il ait obtenu de très bons résultats, ils aimeraient encore améliorer ses performances dans leurs prochains travaux.

“En général, nous obtenons des résultats acceptables pour plusieurs combinaisons d’entrées de texte et de styles souhaités”, écrivent les chercheurs dans leur article. “Cependant, de nombreux domaines de notre solution peuvent encore être améliorés. En particulier, nous prévoyons d’ajouter un module de reconnaissance vocale pour permettre aux personnes handicapées des mains de spécifier leurs entrées via la voix au lieu de taper.”

À l’avenir, la technique développée par Tian et Franchitti pourrait potentiellement être intégrée dans des applications graphiques et de dessin, permettant à tous les individus de produire des images artistiques de haute qualité, quels que soient leurs capacités et leurs talents artistiques. Le code du modèle conçu par les chercheurs est accessible au public sur GitHub. Dans leurs prochaines études, l’équipe prévoit également de comparer ses performances à celles d’autres méthodes de génération d’images et d’améliorer les performances de ses composants individuels.


En matière d’IA, pouvons-nous abandonner les ensembles de données ?


Plus d’information:
Qinghe Tian, ​​Jean-Claude Franchitti, Génération du texte à l’image artistique. arXiv:2205.02439v1 [cs.CV]arxiv.org/abs/2205.02439

github.com/Astatine-213-Tian/T … tic-image-generation

© 2022 Réseau Science X

Citation: Un modèle pour générer des images artistiques basées sur des descriptions textuelles (16 juin 2022) récupéré le 16 juin 2022 sur https://techxplore.com/news/2022-06-artistic-images-based-text-descriptions.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.