Des scientifiques créent un outil pour explorer des milliards de messages sur les réseaux sociaux et potentiellement prédire les troubles

Invention : le conteur d'histoires

Les scientifiques de l’UVM ont inventé un nouvel outil : le Storywrangler. Il visualise l’utilisation de milliards de mots, de hashtags et d’emoji publiés sur Twitter. Dans cet exemple tiré de la visionneuse en ligne de l’outil, trois événements mondiaux de 2020 sont mis en évidence : la mort du général iranien Qasem Soleimani ; le début de la pandémie de COVID-19 ; et les manifestations de Black Lives Matter à la suite du meurtre de George Floyd par la police de Minneapolis. La nouvelle recherche a été publiée dans la revue Science Advances. Crédit : UVM

Pendant des milliers d’années, les gens ont regardé le ciel nocturne à l’œil nu et ont raconté des histoires sur les quelques étoiles visibles. Puis nous avons inventé les télescopes. En 1840, le philosophe Thomas Carlyle affirmait que « l’histoire du monde n’est que la biographie des grands hommes ». Ensuite, nous avons commencé à publier sur Twitter.

Maintenant, les scientifiques ont inventé un instrument pour scruter en profondeur les milliards et les milliards de messages publiés sur Twitter depuis 2008 et ont commencé à découvrir la vaste galaxie d’histoires qu’ils contiennent.

« Nous l’appelons le Storywrangler », explique Thayer Alshaabi, doctorant à l’Université du Vermont qui a codirigé la nouvelle recherche. « C’est comme un télescope pour regarder – en temps réel – toutes ces données que les gens partagent sur les réseaux sociaux. Nous espérons que les gens les utiliseront eux-mêmes, de la même manière que vous pourriez regarder les étoiles et poser vos propres questions. »

Le nouvel outil peut donner une vue sans précédent de la popularité, minute par minute, de la montée des mouvements politiques aux échecs au box-office ; du succès fulgurant de la K-pop aux signaux de nouvelles maladies émergentes.

L’histoire du Storywrangler – une curation et une analyse de plus de 150 milliards de tweets – et certaines de ses principales conclusions ont été publiées le 16 juillet dans le journal Avancées scientifiques.

Expressions de plusieurs

L’équipe de huit scientifiques qui a inventé Storywrangler, de l’Université du Vermont, de Charles River Analytics et de MassMutual Data Science, rassemble environ dix pour cent de tous les tweets publiés chaque jour, dans le monde. Pour chaque jour, ils divisent ces tweets en morceaux simples, ainsi que des paires et des triplets, générant des fréquences à partir de plus d’un billion de mots, hashtags, poignées, symboles et emoji, comme « Super Bowl », « Black Lives Matter », « gravitational vagues », « #metoo », « coronavirus » et « régime céto ».

« Il s’agit du premier outil de visualisation qui vous permet de regarder des phrases d’un, deux et trois mots, dans 150 langues différentes, depuis la création de Twitter jusqu’à aujourd’hui », explique Jane Adams, co-auteur de la nouvelle étude qui a récemment terminé un poste de trois ans en tant qu’artiste en résidence en visualisation de données au Complex Systems Center de l’UVM.

L’outil en ligne, alimenté par le superordinateur d’UVM au Vermont Advanced Computing Core, fournit un objectif puissant pour visualiser et analyser l’ascension et la chute des mots, des idées et des histoires chaque jour parmi les gens du monde entier. « C’est important car cela montre les principaux discours au fur et à mesure qu’ils se déroulent », a déclaré Adams. « C’est quantifier l’attention collective. » Bien que Twitter ne représente pas l’ensemble de l’humanité, il est utilisé par un groupe de personnes très large et diversifié, ce qui signifie qu’il « code la popularité et la diffusion », écrivent les scientifiques, donnant une nouvelle vision du discours pas seulement des personnes célèbres, comme les personnalités politiques et les célébrités, mais aussi les « expressions du plus grand nombre » quotidiennes, note l’équipe.

Dans un test frappant du vaste ensemble de données sur le Storywrangler, l’équipe a montré qu’il pouvait être utilisé pour prédire potentiellement les troubles politiques et financiers. Ils ont examiné le pourcentage de changement dans l’utilisation des mots « rébellion » et « répression » dans diverses régions du monde. Ils ont constaté que la montée et la chute de ces termes étaient significativement associées au changement d’un indice bien établi de risque géopolitique pour ces mêmes endroits.

Que ce passe-t-il?

L’histoire mondiale actuellement écrite sur les réseaux sociaux rassemble des milliards de voix – commentant et partageant, se plaignant et attaquant – et, dans tous les cas, enregistrant – sur les guerres mondiales, les chats étranges, les mouvements politiques, la nouvelle musique, ce qu’il y a à dîner, les maladies mortelles, stars du football préférées, espoirs religieux et blagues cochonnes.

« Le Storywrangler nous donne un moyen basé sur les données d’indexer ce dont les gens ordinaires parlent dans les conversations quotidiennes, pas seulement ce que les journalistes ou les auteurs ont choisi ; professeur à l’Université du Vermont qui a codirigé la création du StoryWrangler avec son collègue Peter Dodds. Ensemble, ils dirigent le Computational Story Lab d’UVM.

« Cela fait partie de l’évolution de la science », déclare Dodds, expert en systèmes complexes et professeur au département d’informatique de l’UVM. « Cet outil peut permettre de nouvelles approches en journalisme, des moyens puissants d’examiner le traitement du langage naturel et le développement de l’histoire informatique. »

Combien quelques personnes puissantes façonnent le cours des événements a été débattue pendant des siècles. Mais, certainement, si nous savions ce que chaque paysan, soldat, commerçant, infirmière et adolescent disait pendant la Révolution française, nous aurions un ensemble d’histoires très différentes sur l’ascension et le règne de Napoléon. « Voici la question profonde », dit Dodds, « que s’est-il passé?

Capteur global

L’équipe de l’UVM, avec le soutien de la National Science Foundation, utilise Twitter pour démontrer comment le bavardage sur les réseaux sociaux distribués peut agir comme une sorte de système de capteurs mondial – de ce qui s’est passé, de la réaction des gens et de ce qui pourrait suivre. Mais d’autres flux de médias sociaux, de Reddit à 4chan en passant par Weibo, pourraient, en théorie, également être utilisés pour alimenter Storywrangler ou des dispositifs similaires : retracer la réaction aux événements majeurs et aux catastrophes naturelles ; suivre la renommée et le sort des dirigeants politiques et des stars du sport ; et ouvrir une perspective de conversation informelle qui peut donner un aperçu des dynamiques allant du racisme à l’emploi, des menaces émergentes pour la santé aux nouveaux mèmes.

Dans le nouveau Avancées scientifiques étude, l’équipe présente un échantillon de la visionneuse en ligne du Storywrangler, avec trois événements mondiaux mis en évidence : la mort du général iranien Qasem Soleimani ; le début de la pandémie de COVID-19 ; et les manifestations de Black Lives Matter à la suite du meurtre de George Floyd par la police de Minneapolis. L’ensemble de données Storywrangler enregistre un pic soudain de tweets et de retweets utilisant le terme « Soleimani » le 3 janvier 2020, lorsque les États-Unis ont assassiné le général ; la forte augmentation du « coronavirus » et des emoji du virus au printemps 2020 alors que la maladie se propageait ; et une rafale d’utilisation du hashtag « #BlackLivesMatter » à partir du 25 mai 2020, le jour où George Floyd a été assassiné.

« Il y a un hashtag qui est en train d’être inventé pendant que je parle en ce moment », explique Chris Danforth d’UVM. « Nous ne savions pas chercher cela hier, mais cela apparaîtra dans les données et fera partie de l’histoire. »


#Covid19, les principaux thèmes Twitter de #BlackLivesMatter en 2020


Plus d’information:
« Storywrangler : un exploratoire massif pour les chronologies sociolinguistiques, culturelles, socio-économiques et politiques utilisant Twitter » Avancées scientifiques (2021). DOI : 10.1126 / sciadv.abe6534

Fourni par l’Université du Vermont

Citation: The Storywrangler : les scientifiques créent un outil pour explorer des milliards de messages sur les réseaux sociaux, potentiellement prédire les troubles (2021, 16 juillet) récupéré le 16 juillet 2021 à partir de https://techxplore.com/news/2021-07-storywrangler-scientists-tool-explore -milliards.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.