Mise à jour automatique des sites Web lorsque les faits changent

Mise à jour automatique des sites Web lorsque les faits changent

Crédit: Laboratoire d’informatique et d’intelligence artificielle du MIT

De nombreuses entreprises investissent des millions de dollars dans la modération du contenu et la lutte contre les fausses informations. Mais qu’en est-il des vieilles nouvelles et de la désinformation qui existent toujours?

Une vérité fondamentale sur Internet est qu’il contient de nombreuses informations obsolètes. Pensez simplement aux nombreux articles de presse écrits dans les premières semaines de la pandémie de COVID-19, avant d’en savoir plus sur la façon dont le virus a été transmis. Ces informations sont toujours disponibles, et le mieux que nous puissions faire pour minimiser leur impact est de les enterrer dans les résultats de recherche ou d’avertir que le contenu est ancien (comme Facebook le fait maintenant lorsque les utilisateurs sont sur le point de partager une histoire vieille de plus de trois mois. .)

L’histoire devient encore plus compliquée lorsqu’il s’agit de modèles d’apprentissage profond. Ces modèles sont souvent formés sur des milliards de pages Web, de livres et d’articles de presse. Cela peut aider les modèles d’IA à rattraper ce qui est une seconde nature pour nous les humains, comme les règles grammaticales et certaines connaissances du monde. Cependant, ce processus peut également entraîner des résultats indésirables, comme l’amplification des biais sociaux à partir des données sur lesquelles les modèles ont été formés. De même, ces modèles peuvent également s’en tenir à certains faits anciens qu’ils ont mémorisés au moment de leur création mais qui ont été modifiés par la suite ou se sont avérés faux – par exemple, l’efficacité de certains traitements contre le COVID-19.

Dans un nouvel article qui sera présenté à la Conférence NAACL sur la linguistique computationnelle en juin, des chercheurs du MIT décrivent des outils pour s’attaquer à ces problèmes. Ils visent à réduire la quantité d’informations erronées ou obsolètes en ligne et à créer également des modèles d’apprentissage en profondeur qui s’adaptent de manière dynamique aux changements récents.

«Nous espérons que les humains et les machines bénéficieront des modèles que nous avons créés», déclare l’auteur principal Tal Schuster, titulaire d’un doctorat. étudiant au Laboratoire d’Informatique et d’Intelligence Artificielle du MIT (CSAIL). « Nous pouvons surveiller les mises à jour des articles, identifier les changements importants et suggérer des modifications à d’autres articles connexes. Il est important de noter que lorsque les articles sont mis à jour, nos modèles de vérification automatique des faits sont sensibles à ces modifications et mettent à jour leurs prédictions en conséquence. »

La dernière partie – s’assurer que les dernières informations sont suivies – est spécifique aux machines de ce projet. Encourager également les humains à avoir un état d’esprit flexible et à mettre à jour leurs croyances en présence de nouvelles preuves dépassait le cadre ici. Cependant, stimuler le processus d’édition d’anciens articles peut déjà au moins réduire la quantité d’anciennes informations en ligne.

Schuster a rédigé l’article avec un doctorat. l’étudiant Adam Fisch et leur conseillère académique Regina Barzilay, le professeur Delta Electronics de génie électrique et d’informatique et professeur au CSAIL.

Étudier les changements factuels à partir des révisions de Wikipédia

Afin d’examiner comment les nouvelles informations sont incorporées dans les articles, l’équipe a décidé d’examiner les modifications apportées aux pages Wikipédia anglaises populaires. Même avec sa conception ouverte, permettant à quiconque de faire des modifications, sa communauté massive et active a aidé Wikipedia à devenir un endroit sûr avec un contenu fiable, en particulier pour les situations nouvellement développées comme une pandémie.

Cependant, la plupart des modifications apportées à Wikipédia n’ajoutent ni ne mettent à jour de nouvelles informations, mais n’apportent que des modifications stylistiques, par exemple, réorganiser les phrases, paraphraser ou corriger les fautes de frappe. Il est important d’identifier les modifications qui expriment un changement factuel, car cela peut aider la communauté à signaler ces révisions et à les examiner plus attentivement.

«Automatiser cette tâche n’est pas facile», déclare Schuster. « Mais vérifier manuellement chaque révision n’est pas pratique car il y a plus de six mille modifications toutes les heures. »

L’équipe a collecté un ensemble initial d’environ deux cent millions de révisions de pages populaires comme COVID-19 ou de personnages célèbres. À l’aide de modèles d’apprentissage en profondeur, ils ont classé tous les cas en fonction de leur probabilité d’exprimer un changement factuel. Les trois cent mille révisions les plus importantes ont ensuite été données aux annotateurs qui ont confirmé qu’environ un tiers d’entre elles incluaient une différence factuelle. Les annotations obtenues peuvent être utilisées pour automatiser complètement un processus similaire à l’avenir.

Pour terminer ce processus d’annotation manuelle, l’équipe a contacté TransPerfect DataForce. En plus de filtrer les révisions importantes, les annotateurs ont également été invités à rédiger une brève affirmation plausible qui était correcte avant la révision mais qui ne l’est plus.

«Obtenir des résultats cohérents de haute qualité sur ce volume a nécessité un effort bien orchestré», déclare Alex Poulis, créateur et directeur principal de DataForce. « Nous avons établi un groupe de 70 annotateurs et des processus de formation et d’assurance qualité de niveau industriel, et nous avons utilisé nos outils d’annotation avancés pour maximiser l’efficacité. »

Ce processus a abouti à une grande collection de révisions, associées à des affirmations selon lesquelles leur véracité change avec le temps. L’équipe a nommé cet ensemble de données Vitamine C car ils trouvent sa nature contrastive unique pour améliorer la robustesse des systèmes d’IA. Ensuite, ils se sont tournés pour développer un certain nombre de modèles d’IA capables de simuler des modifications similaires et d’y être sensibles.

Ils ont également partagé publiquement la vitamine C pour permettre à d’autres chercheurs d’étendre leurs études.

Automatiser la modération de contenu

Un seul événement peut être pertinent pour de nombreux articles différents. Par exemple, prenez l’approbation d’urgence de la FDA pour le premier vaccin à ARNm. Cet événement a conduit à des modifications non seulement de la page d’ARNm sur Wikipédia, mais également de centaines d’articles sur le COVID-19 et la pandémie, y compris des articles sur d’autres vaccins. Dans ce cas, le copier-coller n’est pas suffisant. À chaque article, les informations doivent être ajoutées à l’emplacement approprié, en préservant la cohérence du texte et en supprimant éventuellement les anciens détails contradictoires (par exemple, en supprimant les déclarations telles que «aucun vaccin n’est encore disponible»).

Des tendances similaires peuvent être observées sur les sites Web d’information. De nombreux fournisseurs de nouvelles créent des pages Web dynamiques qui se mettent à jour de temps en temps, en particulier sur des événements en évolution tels que des élections ou des catastrophes. L’automatisation de certaines parties de ce processus pourrait être très utile et éviter les retards.

L’équipe du MIT a décidé de se concentrer sur la résolution de deux tâches connexes. Premièrement, ils créent un modèle pour imiter la tâche de filtrage des annotateurs humains et peuvent détecter près de 85% des révisions qui représentent un changement factuel. Ensuite, ils développent également un modèle pour réviser automatiquement les textes, suggérant potentiellement des modifications à d’autres articles qui devraient également être mis à jour. Leur modèle de révision de texte est basé sur la technologie Transformer séquence à séquence et est formé pour suivre les exemples collectés pour l’ensemble de données sur la vitamine C. Dans leurs expériences, ils trouvent des lecteurs humains pour évaluer les sorties du modèle de la même manière que les modifications écrites par des humains.

La création automatique d’une édition concise et précise est difficile à faire. En plus de leur propre modèle, les chercheurs ont également essayé d’utiliser le modèle de langage GPT-3 qui a été formé sur des milliards de textes mais sans la structure contrastive de la vitamine C. Bien qu’il génère des phrases cohérentes, un problème connu est qu’il peut halluciner et ajouter faits non étayés. Par exemple, lorsqu’on lui a demandé de traiter une vérification rapportant le nombre de cas confirmés de COVID-19 en Allemagne, GPT-3 a ajouté aux phrases qu’il y avait 20 décès signalés, même si la source, dans ce cas, ne mentionne aucun décès .

Heureusement, cette incohérence dans la sortie de GPT-3 a été correctement identifiée par l’autre création des chercheurs: un modèle de vérification des faits robuste.

Faire en sorte que les systèmes de vérification des faits suivent les dernières mises à jour

Les récentes améliorations apportées à l’apprentissage en profondeur ont permis le développement de modèles automatiques de vérification des faits. De tels modèles, comme ceux créés pour le défi FEVER, devraient traiter une réclamation donnée contre des preuves externes et déterminer sa véracité.

Les chercheurs du MIT ont constaté que les systèmes actuels ne sont pas toujours sensibles aux changements dans le monde. Pour environ 60% des demandes, les systèmes ne modifiaient pas leur verdict même lorsqu’ils étaient présentés avec les preuves opposées. Par exemple, le système pourrait se rappeler que la ville de Beaverton Oregon comptait quatre-vingt mille habitants et dire que l’affirmation «Plus de 90 000 personnes vivent à Beaverton» est fausse, même lorsque la population de la ville finit par dépasser ce nombre.

Encore une fois, le jeu de données sur la vitamine C est utile ici. Suite à ses nombreux exemples de faits qui changent avec le temps, l’équipe du MIT a formé les systèmes de vérification des faits pour suivre les preuves actuellement observées.

«La simulation d’un environnement dynamique impose au modèle d’éviter toute croyance statique», déclare Schuster. « Au lieu d’enseigner au modèle que la population d’une certaine ville est ceci et cela, nous lui apprenons à lire la phrase actuelle de Wikipédia et à trouver la réponse dont elle a besoin. »

Ensuite, l’équipe prévoit d’étendre ses modèles à de nouveaux domaines et de prendre en charge des langues autres que l’anglais. Ils espèrent que l’ensemble de données sur la vitamine C et leurs modèles encourageront également d’autres chercheurs et développeurs à créer des systèmes d’IA robustes qui adhèrent aux faits.


Le système automatisé peut réécrire des phrases obsolètes dans les articles de Wikipédia


Plus d’information:
Obtenez votre vitamine C! Vérification solide des faits avec preuves contrastées. arXiv: 2103.08541v1 [cs.CL] 15 mars 2021, arxiv.org/abs/2103.08541

Fourni par MIT Computer Science & Artificial Intelligence Lab

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Mise à jour automatique des sites Web lorsque les faits changent (2021, 30 mars) récupéré le 14 avril 2021 sur https://techxplore.com/news/2021-03-auto-updating-websites-facts.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.