Des chercheurs développent une méthode pour empêcher les bots d’utiliser un langage toxique

Nettoyer l'acte et la parole des bots en ligne

Des chercheurs de l’Université de Californie à San Diego ont développé des algorithmes pour débarrasser le discours généré par les robots en ligne du langage offensant, sur les réseaux sociaux et ailleurs. Crédit : Université de Californie à San Diego

Des chercheurs de l’Université de Californie à San Diego ont développé des algorithmes pour débarrasser le discours généré par les robots en ligne du langage offensant, sur les réseaux sociaux et ailleurs.

Les chatbots utilisant un langage toxique sont un problème permanent. Mais l’exemple le plus célèbre est peut-être Tay, un chatbot Twitter dévoilé par Microsoft en mars 2016. En moins de 24 heures, Tay, qui apprenait des conversations sur Twitter, a commencé à répéter certaines des déclarations les plus offensantes tweetées sur le bot, y compris déclarations racistes et misogynes.

Le problème est que les chatbots sont souvent entraînés à répéter les déclarations de leurs interlocuteurs au cours d’une conversation. De plus, les bots sont formés sur d’énormes quantités de texte, qui contiennent souvent un langage toxique et ont tendance à être biaisés ; certains groupes de personnes sont surreprésentés dans l’ensemble de formation et le bot apprend un langage représentatif de ce groupe uniquement. Un exemple est un bot produisant des déclarations négatives sur un pays, propageant des biais parce qu’il apprend d’un ensemble de formation où les gens ont une vision négative de ce pays.

“L’industrie essaie de repousser les limites des modèles de langage”, a déclaré le doctorat en informatique de l’UC San Diego. étudiant Canwen Xu, premier auteur du journal. “En tant que chercheurs, nous examinons de manière approfondie l’impact social des modèles linguistiques et répondons aux préoccupations.”

Les chercheurs et les professionnels de l’industrie ont essayé plusieurs approches pour nettoyer le discours des bots, le tout avec peu de succès. La création d’une liste de mots toxiques passe à côté de mots qui, lorsqu’ils sont utilisés isolément, ne sont pas toxiques, mais deviennent offensants lorsqu’ils sont utilisés en combinaison avec d’autres. Essayer de supprimer le discours toxique des données de formation prend du temps et est loin d’être infaillible. Le développement d’un réseau de neurones qui identifierait les discours toxiques pose des problèmes similaires.

Au lieu de cela, l’équipe d’informaticiens de l’UC San Diego a d’abord envoyé des invites toxiques à un modèle de langage pré-formé pour qu’il génère du contenu toxique. Les chercheurs ont ensuite formé le modèle pour prédire la probabilité que le contenu soit toxique. Ils appellent cela leur “modèle diabolique”. Ils ont ensuite formé un “bon modèle”, qui a appris à éviter tout le contenu hautement classé par le “mauvais modèle”.

Ils ont vérifié que leur bon modèle fonctionnait aussi bien que les méthodes de pointe – détoxifiant la parole jusqu’à 23 %.

Ils ont présenté leurs travaux lors de la conférence AAAI sur l’intelligence artificielle qui s’est tenue en ligne en mars 2022.

Les chercheurs ont pu développer cette solution car leur travail couvre un large éventail d’expertises, a déclaré Julian McAuley, professeur au département d’informatique et d’ingénierie de l’UC San Diego et auteur principal de l’article.

“Notre laboratoire possède une expertise en langage algorithmique, en traitement du langage naturel et en débiaisage algorithmique”, a-t-il déclaré. “Ce problème et notre solution se situent à l’intersection de tous ces sujets.”

Cependant, ce modèle de langage présente encore des lacunes. Par exemple, le bot évite désormais les discussions sur les groupes sous-représentés, car le sujet est souvent associé au discours de haine et au contenu toxique. Les chercheurs prévoient de se concentrer sur ce problème dans des travaux futurs.

“Nous voulons créer un modèle de langage plus convivial pour différents groupes de personnes”, a déclaré un doctorat en informatique. étudiant Zexue He, l’un des co-auteurs de l’article.

Le travail a des applications dans des domaines autres que les chatbots, a déclaré un doctorat en informatique. étudiant et co-auteur de l’article Zhankui He. Il pourrait, par exemple, également être utile pour diversifier et détoxifier les systèmes de recommandation.


Comment “désintoxiquer” un langage potentiellement offensant d’une IA


Plus d’information:
Laisser les démons intérieurs : auto-désintoxication pour les modèles linguistiques, arXiv : 2203.03072 [cs.CL] arxiv.org/abs/2203.03072

Fourni par Université de Californie – San Diego

Citation: Des chercheurs développent une méthode pour empêcher les robots d’utiliser un langage toxique (21 avril 2022) récupéré le 21 avril 2022 sur https://techxplore.com/news/2022-04-method-bots-toxic-language.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.