Les outils d’exploration de données combattent la désinformation sur le COVID-19 et identifient les symptômes

exploration de données

Crédit : Pixabay/CC0 domaine public

Les informaticiens de l’UC Riverside développent des outils pour aider à suivre et à surveiller les symptômes du COVID-19 et à passer au crible la désinformation sur la maladie sur les réseaux sociaux.

À l’aide des données de Google Trends, un groupe dirigé par Vagelis Papalexakis, professeur agrégé au Marlan and Rosemary Bourns College of Engineering ; et Jia Chen, professeur adjoint d’enseignement, a développé un algorithme qui a identifié trois symptômes uniques à COVID-19 par rapport à la grippe : agueusie – perte de la fonction gustative de la langue – essoufflement et anosmie, ou perte d’odorat. L’algorithme a été développé en collaboration avec deux étudiants diplômés, Md Imrul Kaish et Md Jakir Hossain, à l’Université du Texas Rio Grande Valley.

« Une grande partie du travail utilisant Google Trends pour la grippe s’est concentrée sur la prévision de la saison de la grippe », a déclaré Papalexakis. « De notre côté, nous l’avons utilisé pour voir si nous pouvions trouver une aiguille dans une botte de foin : des symptômes uniques au COVID-19 parmi tous les symptômes pseudo-grippaux que les gens recherchent. »

Les chercheurs ont localisé les symptômes sur Google Trends pour 2019 et 2020 et ont utilisé une technique qu’ils ont appelée analyse discriminante non négative, ou ADN, pour extraire les termes propres à un ensemble de données par rapport à l’autre.

« Nous avons supposé que les recherches de symptômes en 2019 conduiraient à la grippe ou à d’autres maladies respiratoires, tandis que les recherches pour les mêmes symptômes en 2020 pourraient être l’une ou l’autre », a déclaré Chen. « En utilisant l’ADN, nous avons pu trouver la différence entre les deux ensembles de données. Il s’agissait de termes que les cliniciens ont déjà identifiés comme uniques à COVID-19, montrant que notre approche fonctionne. »

Papalexakis et Chen s’attendent à ce que leur travail aide les épidémiologistes et autres experts en santé publique à suivre et à surveiller COVID-19 en utilisant Google Trends comme proxy pour les données hospitalières.

« Les données de Google Trends sont très bruyantes, mais les données hospitalières ne sont pas accessibles au public. Les gens peuvent rechercher des symptômes parce qu’ils les ressentent ou parce qu’ils en ont entendu parler et veulent en savoir plus », a déclaré Papalexakis. « Les recherches reflètent mieux l’intérêt pour les symptômes que les personnes qui les ressentent activement, mais étant donné le manque d’autres données, nous pensons que cet outil pourrait aider les chercheurs à mieux comprendre les symptômes. »

Chen a déclaré que l’algorithme est simple et facile à mettre en œuvre dans le cadre d’un outil potentiel qui peut aider les scientifiques à la recherche d’autres maladies à connaître les symptômes potentiels.

L’article, « COVID-19 or Flu? Discriminative Knowledge Discovery of COVID-19 Symptoms from Google Trends Data », a été présenté à epiDAMIK 2021, un atelier sur l’exploration de données pour faire progresser les connaissances épidémiologiques. L’atelier a été organisé dans le cadre de la plus grande conférence annuelle sur la science des données, l’Association for Computing Machinery’s, ou ACM, Special Interest Group on Knowledge Discovery and Data Mining.

Papalexakis et William Shiao, doctorant à l’UC Riverside, développent également un outil qui non seulement identifie la désinformation sur le COVID-19, mais montre pourquoi les informations sont signalées comme fausses par rapport à une base de données d’articles scientifiques sur la recherche sur les coronavirus.

Papalexakis et Shiao ont utilisé 90 000 articles du COVID-19 Open Research Dataset Challenge (CORD-19) préparé par la Maison Blanche et une coalition de groupes de recherche, et ont collecté 20 000 articles « dans la nature » avec de la désinformation sur le nouveau coronavirus. En utilisant une méthode d’intégration basée sur une matrice de similarité qu’ils ont appelée KI2TE, les articles ont été liés à un ensemble de documents de référence et interprétés. Les documents utilisés pour référence étaient un ensemble d’articles universitaires sur la recherche sur les coronavirus inclus dans l’ensemble de données CORD-19.

Lorsqu’elles ont été testées sur des articles étiquetés par des humains comme faux ou identifiés par Google Fact Check comme faux, leur méthode a non seulement correctement identifié les fausses histoires, mais a également indiqué les sources scientifiques qui ont corroboré la décision du système.

« Nous ne sommes pas intéressés par la censure de ce que les gens voient. Nous voulons aller au-delà de cacher quelque chose ou simplement de montrer une étiquette d’avertissement », a déclaré Papalexakis. « Nous voulons aussi leur montrer des sources pour les éduquer. »

Bien que l’outil développé par Papalexakis et Shiao soit un prototype en cours de développement de recherche actif, il pourrait éventuellement être intégré à une application pour smartphone ou à des plateformes de médias sociaux comme Facebook.


Comment les scientifiques peuvent-ils prédire une épidémie de COVID-19 ? Il y a une application pour ça


Plus d’information:
COVID-19 ou grippe ? Découverte de connaissances discriminantes sur les symptômes du COVID-19 à partir des données de Google Trends. www.cs.ucr.edu/~epapalex/papers/epidamik_kdd21.pdf

KI2TE : Embeddings InterpreTable infusés de connaissances pour la détection de la désinformation COVID-19. www.cs.ucr.edu/~epapalex/paper … Knod2021_paper_7.pdf

Fourni par l’Université de Californie – Riverside

Citation: Les outils d’exploration de données combattent la désinformation sur COVID-19 et identifient les symptômes (2021, 20 août) récupérés le 20 août 2021 à partir de https://techxplore.com/news/2021-08-tools-combat-covid-misinformation-symptoms.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.