Un modèle capable de générer des versions humoristiques de titres existants

Un modèle capable de générer des versions humoristiques de titres existants

Diagramme résumant le processus par lequel le modèle génère des titres humoristiques. Crédit : Alnajjar & Hämäläinen.

Au cours de la dernière décennie, les informaticiens ont développé un nombre croissant de modèles informatiques capables de générer, d’éditer et d’analyser des textes. Alors que certains de ces modèles ont obtenu des résultats remarquables, certains aspects du langage et de la communication humains se sont avérés particulièrement difficiles à reproduire informatiquement.

L’un de ces aspects est l’humour, la capacité humaine à dire ou à écrire des choses amusantes. L’humour est une qualité subtile et intrinsèquement humaine ; ainsi, le reproduire dans des machines est loin d’être une tâche facile.

Des chercheurs de l’Université d’Helsinki ont récemment tenté de reproduire artificiellement l’humour dans des machines, en développant un cadre capable de transformer les gros titres existants en titres humoristiques. Ce modèle, introduit pour la première fois dans un article prépublié sur arXiv et présenté à la 12e Conférence internationale sur la créativité informatique (ICCC 2021), a été formé pour analyser les titres d’un ensemble de données existant et y remplacer les mots pour leur donner des qualités comiques ou amusantes.

« La génération automatisée de nouvelles est devenue un intérêt majeur pour les agences de presse », ont écrit dans leur article Khalid Alnajjar et Mika Hämäläinen, les deux chercheurs qui ont mené l’étude. « Souvent, les titres de ces articles de presse générés automatiquement manquent d’imagination, car ils ont été générés avec des modèles prêts à l’emploi. Nous présentons une approche informatique créative pour la génération de titres qui peut générer des versions humoristiques de titres existants. »

Le récent article d’Alnajjar et Hämäläinen s’inspire d’un travail antérieur de trois chercheurs de l’Université de Rochester et de Microsoft Research AI, qui ont présenté Humicroedit, un ensemble de données contenant plus de 15 000 titres de presse annotés. Dans cette étude, les chercheurs ont identifié des stratégies pour faire les gros titres drôles qui sont couramment utilisées par les humains, qu’ils ont trouvées alignées sur les théories de l’humour existantes.

L’équipe de l’Université d’Helsinki a conçu un modèle qui utilise certaines de ces stratégies pour modifier les titres non humoristiques et les rendre plus amusants pour les lecteurs. Pour ce faire, il essaie de trouver des substituts amusants à certains mots dans les titres existants.

Deux exemples des gros titres générés par le modèle des chercheurs sont : « Trump mange le mauvais Lee Greenwood sur Twitter » et « Les États-Unis disent que la Turquie aide l’Etat islamique en ratissant les Kurdes en Syrie ».

Un modèle capable de générer des versions humoristiques de titres existants

Crédit : Alnajjar & Hämäläinen.

Pour évaluer l’efficacité de leur modèle, Alnajjar et Hämäläinen l’ont utilisé pour modifier 83 titres choisis au hasard dans l’ensemble de données Humicroedit et les rendre plus humoristiques. Par la suite, ils ont demandé aux évaluateurs sur une plate-forme de crowdsourcing de donner leur avis pour savoir s’ils trouvaient les titres générés par le modèle drôles ou non.

Dans l’ensemble, les chercheurs ont découvert que les titres humoristiques produits par leur modèle étaient comparables à ceux générés par les humains à plusieurs niveaux. De plus, en moyenne, ils ont constaté que les évaluateurs humains recrutés en ligne considéraient les titres produits par leur système comme amusants 36 % du temps. Si le modèle est encore amélioré, il pourrait éventuellement aider les agences médiatiques et les journalistes à proposer de nouveaux titres amusants pour les articles de presse.

« Comme les meilleurs titres produits par notre système pour chaque titre original peuvent, en moyenne, atteindre un niveau humain en termes de la plupart des facteurs mesurés dans notre évaluation, une orientation future immédiate de notre recherche est de développer un meilleur mécanisme de classement pour atteindre la capacité maximale de notre système », ont conclu Alnajjar et Hämäläinen dans leur article. « Peut-être qu’un tel classement pourrait être appris en formant un classificateur à mémoire à long court terme (LSTM) sur des corpus annotés par l’humour. »


Des études suggèrent que trouver des moyens automatiques de détecter les fausses nouvelles peut être plus compliqué que prévu


Plus d’information:
Quand un ordinateur fait une blague : génération automatisée de titres humoristiques. arXiv : 2109.08702 [cs.CL]. arxiv.org/abs/2109.08702

« Le président promet de couper les cheveux » : ensemble de données et analyse de l’édition de texte créatif pour les titres humoristiques. Actes de la conférence 2019 de la section nord-américaine de l’Association for Computational Linguistics: Human Language Technologies(2019). DOI : 10.18653 / v1 / N19-1012

© 2021 Réseau Science X

Citation: Un modèle qui peut générer des versions humoristiques de gros titres existants (2021, 4 octobre) récupéré le 4 octobre 2021 à partir de https://techxplore.com/news/2021-10-humorous-versions-headlines.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.