Évaluation de la toxicité des commentaires Reddit

reddit

Crédit : domaine public CC0

Une nouvelle recherche, publiée dans PeerJ Informatiquequi analyse plus de 87 millions de messages et 2,205 milliards de commentaires sur Reddit de plus de 1,2 million d’utilisateurs uniques, examine les changements dans le comportement en ligne des utilisateurs qui publient dans plusieurs communautés sur Reddit en mesurant la “toxicité”.

L’analyse de la toxicité du comportement des utilisateurs a montré que 16,11 % des utilisateurs publient des messages toxiques et que 13,28 % des utilisateurs publient des commentaires toxiques. 30,68 % des utilisateurs publiant des messages et 81,67 % des utilisateurs publiant des commentaires présentent des changements dans leur toxicité dans différentes communautés – ou sous-reddits – indiquant que les utilisateurs adaptent leur comportement aux normes des communautés.

L’étude suggère qu’une façon de limiter la propagation de la toxicité consiste à limiter les communautés auxquelles les utilisateurs peuvent participer. Les chercheurs ont trouvé une corrélation positive entre l’augmentation du nombre de communautés et l’augmentation de la toxicité mais ne peuvent garantir que ce soit la seule raison de l’augmentation du contenu toxique.

Différents types de contenu peuvent être partagés et publiés sur les plateformes de médias sociaux, permettant aux utilisateurs de communiquer entre eux de différentes manières. La croissance des plateformes de médias sociaux a malheureusement entraîné une explosion de contenus malveillants tels que le harcèlement, les blasphèmes et la cyberintimidation. Diverses raisons peuvent motiver les utilisateurs de plateformes de médias sociaux à diffuser des contenus préjudiciables. Il a été démontré que la publication de contenu toxique (c’est-à-dire un comportement malveillant) se propage – le comportement malveillant d’utilisateurs non malveillants peut influencer les utilisateurs non malveillants et les amener à se conduire mal, ce qui a un impact négatif sur les communautés en ligne.

“L’un des défis de l’étude de la toxicité en ligne est la multitude de formes qu’elle prend, y compris le discours de haine, le harcèlement et la cyberintimidation. Le contenu toxique contient souvent des insultes, des menaces et un langage offensant, qui, à leur tour, contaminent les plateformes en ligne. Plusieurs plateformes en ligne ont mis en place mécanismes de prévention, mais ces efforts ne sont pas suffisamment évolutifs pour freiner la croissance rapide des contenus toxiques sur les plateformes en ligne. Ces défis appellent à développer des solutions automatiques ou semi-automatiques efficaces pour détecter la toxicité d’un flux important de contenus sur les plateformes en ligne », déclarent les auteurs, doctorat (ABD) Hind Almerekhi, Dr Haewoon Kwak et Professeur Bernard J. Jansen.

“Le suivi du changement de la toxicité des utilisateurs peut être une méthode de détection précoce de la toxicité dans les communautés en ligne. La méthodologie proposée peut identifier le moment où les utilisateurs présentent un changement en calculant le pourcentage de toxicité dans les publications et les commentaires. Ce changement, combiné au niveau de toxicité de notre système détecte dans les messages des utilisateurs, peut être utilisé efficacement pour arrêter la diffusion de la toxicité.”

L’équipe de recherche, à l’aide du crowdsourcing, a construit un ensemble de données étiquetées de 10 083 commentaires Reddit, puis a utilisé l’ensemble de données pour former et affiner un modèle de réseau neuronal Bidirectional Encoder Representations from Transformers (BERT). Le modèle a prédit les niveaux de toxicité de 87 376 912 publications de 577 835 utilisateurs et de 2 205 581 786 commentaires de 890 913 utilisateurs sur Reddit sur 16 ans, de 2005 à 2020.

Cette étude a utilisé les niveaux de toxicité du contenu de l’utilisateur pour identifier les changements de toxicité par l’utilisateur au sein de la même communauté, dans plusieurs communautés et au fil du temps. Pour les performances de détection de la toxicité, le modèle BERT affiné a atteint une précision de classification de 91,27 % et un score d’aire sous la courbe caractéristique de fonctionnement du récepteur (AUC) de 0,963 et a surpassé plusieurs modèles d’apprentissage automatique et de réseau neuronal de base.


Une étude révèle que la toxicité dans la communauté open source diffère des autres forums Internet


Plus d’information:
Hind Almerekhi et al, Enquête sur les changements de toxicité des rédacteurs intercommunautaires à partir de 2 milliards de publications et de commentaires, PeerJ Informatique (2022). DOI : 10.7717/peerj-cs.1059

Citation: Assessing the toxicity of Reddit comments (2022, August 18) récupéré le 18 août 2022 sur https://techxplore.com/news/2022-08-toxicity-reddit-comments.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.