La collecte de nouvelles modulaire rend l’agrégation de contenu plus rapide et plus précise

nouvelles

Crédit: Unsplash / CC0 Public Domain

L’utilisation de petits modules de traitement peut réduire considérablement les frais généraux sur les systèmes informatiques dont les ressources sont limitées lorsque de grandes quantités de données doivent néanmoins être traitées. Recherche par une équipe en Grèce décrite dans le Revue internationale d’ingénierie et de technologie Web montre comment cette approche peut être utilisée pour l’agrégation de contenu, l’extraction d’informations, le marquage des sentiments et les tâches de visualisation.

Iraklis Varlamis et Dimitrios Michail du Département d’informatique et de télématique de l’Université Harokopio d’Athènes et Pavlos Polydoras et Panagiotis Tsantilas de Palo Ltd à Kokkoni, en Grèce, ont démontré comment cette approche modulaire pourrait bien fonctionner sur la plate-forme d’analyse des médias sociaux et de l’actualité, PaloAnalytics. . L’équipe montre comment l’architecture proposée peut facilement résister aux pressions d’une charge de contenu accrue lorsqu’un problème devient viral sur les médias sociaux, par exemple lorsqu’un événement majeur a lieu. Les micro-modules qui remplacent l’architecture monolithique des systèmes de traitement de données conventionnels peuvent libérer rapidement des ressources inutilisées lorsque la charge de contenu atteint son flux normal.

Les chercheurs soulignent que même depuis les débuts des robots d’exploration primitifs qui sont devenus la base des moteurs de recherche et d’autres outils connexes, il a été reconnu que le traitement distribué est le seul moyen viable d’apprivoiser les vastes quantités de données textuelles générées même il y a longtemps. ensuite. Aujourd’hui, l’échelle est presque inimaginable avec de nombreux pétaoctets de données à assimiler, agréger, traiter, indexer et annoter avec un sens. Les vastes domaines du Web et des systèmes de médias sociaux nous offrent une riche filière à exploiter pour obtenir des informations et des connaissances si les outils peuvent être conçus pour faire face aux bits et aux octets.

Jusqu’à présent, les tests de l’équipe étaient basés sur l’analyse de 1500 sites Web, 10000 blogs, forums, des centaines de milliers de pages Facebook publiques, des mises à jour Instagram, Twitter et YouTube, dans six pays européens et dans six langues différentes. Leur travail montre où des améliorations pourraient être apportées pour construire un outil analytique puissant qui serait évolutif et nous permettrait d’exploiter bientôt ces énormes filons de connaissances de manière efficace et efficiente.


Exploration génétique du Web invisible


Plus d’information:
Iraklis Varlamis et al. Une architecture distribuée pour le traitement des actualités et des réseaux sociaux à grande échelle, Revue internationale d’ingénierie et de technologie Web (2021). DOI: 10.1504 / IJWET.2020.114029

Citation: La collecte de nouvelles modulaire rend l’agrégation de contenu plus rapide et plus précise (2021, 12 avril) récupéré le 12 avril 2021 sur https://techxplore.com/news/2021-04-modular-newsgathering-content-aggregation-faster.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.