Les forces et les limites des approches de détection de deepfake text

Les forces et les limites des approches de détection de deepfake text

Crédit : Pu et al

Les avancées dans le domaine de l’apprentissage automatique ont récemment permis le développement d’outils informatiques capables de créer des textes convaincants mais produits artificiellement, également appelés textes deepfake. Si la création automatique de textes pourrait avoir des applications intéressantes, elle soulève également de sérieuses inquiétudes en termes de sécurité et de désinformation.

Les textes produits de manière synthétique pourraient également être utilisés pour induire en erreur les internautes, par exemple par la génération à grande échelle de textes extrémistes ou violents visant à radicaliser des individus, de fausses nouvelles pour des campagnes de désinformation, de messages électroniques pour des attaques de phishing ou de faux avis ciblant des hôtels spécifiques, lieux ou restaurants. Collectivement, cela pourrait encore réduire la confiance de certains utilisateurs dans le contenu en ligne, tout en incitant d’autres utilisateurs à adopter des comportements antisociaux et à risque.

Une étude récente menée par des chercheurs de Virginia Tech, en collaboration avec des chercheurs de l’Université de Chicago, de LUMS Pakistan et de l’Université de Virginie, a récemment exploré les limites et les forces des approches existantes pour détecter les textes deepfake. Leur article, avec les étudiants Jiameng Pu et Zain Sarwar comme auteurs principaux, devrait être présenté à l’IEEE S&P’23, une conférence axée sur la sécurité informatique.

“Une grande partie des recherches sur la sécurité que nous avons menées avant 2016 supposaient un attaquant algorithmiquement faible. Cette hypothèse n’est plus valable compte tenu des progrès réalisés dans l’IA et le ML. Nous devons considérer des adversaires algorithmiquement intelligents ou alimentés par ML. Cela nous a incités à commencer à explorer En 2017, nous avons publié un article explorant comment les modèles de langage (LM) comme les RNN peuvent être utilisés à mauvais escient pour générer de fausses critiques sur des plateformes telles que Yelp », a déclaré Bimal Viswanath, chercheur de Virginia Tech qui a dirigé l’étude, à TechXplore.

“C’était notre première incursion dans cet espace. Depuis lors, nous avons observé des progrès rapides dans les technologies LM, en particulier après la sortie de la famille de modèles Transformer. Ces avancées soulèvent la menace d’une mauvaise utilisation de ces outils pour permettre la diffusion de campagnes à grande échelle. désinformation, générer des spams d’opinion et des contenus abusifs, et des techniques de phishing plus efficaces.”

Au cours des dernières années, de nombreux informaticiens du monde entier ont essayé de développer des modèles informatiques capables de détecter avec précision le texte synthétique généré par des LM avancés. Cela a conduit à l’introduction de nombreuses stratégies défensives différentes; y compris certains qui recherchent des artefacts spécifiques dans des textes synthétiques et d’autres qui s’appuient sur l’utilisation de modèles de langage pré-formés pour construire des détecteurs.

“Bien que ces défenses aient signalé des précisions de détection élevées, on ne savait toujours pas dans quelle mesure elles fonctionneraient dans la pratique, dans des contextes contradictoires”, a expliqué Viswanath. “Les défenses existantes ont été testées sur des ensembles de données créés par les chercheurs eux-mêmes, plutôt que sur des données synthétiques dans la nature. En pratique, les attaquants s’adapteraient à ces défenses pour échapper à la détection, et les travaux existants ne tenaient pas compte de tels paramètres contradictoires.”

Les défenses que les utilisateurs malveillants peuvent facilement surmonter en modifiant légèrement la conception de leurs modèles de langage sont finalement inefficaces dans le monde réel. Viswanath et ses collègues ont donc entrepris d’explorer les limites, les forces et la valeur réelle de certains des modèles de détection de texte deepfake les plus prometteurs créés à ce jour.

Leur article s’est concentré sur 6 schémas de détection de texte synthétique existants introduits au cours des dernières années, qui avaient tous atteint des performances remarquables lors des évaluations initiales, avec des précisions de détection allant de 79,6 % à 98,5 %. Les modèles qu’ils ont évalués sont BERT-Defense, GLTR-GPT2, GLTR-BERT, GROVER, FAST et RoBERTa-Defense.

“Nous remercions les développeurs de ces modèles d’avoir partagé le code et les données avec nous, car cela nous a permis de les reproduire avec précision”, a déclaré Viswanath. “Notre premier objectif était d’évaluer de manière fiable les performances de ces défenses sur des ensembles de données du monde réel. Pour ce faire, nous avons préparé 4 nouveaux ensembles de données synthétiques, que nous avons maintenant mis à la disposition de la communauté.”

Pour compiler leurs ensembles de données, Viswanath et ses collègues ont collecté des milliers d’articles de texte synthétique créés par différentes plates-formes de génération de texte en tant que service, ainsi que des messages Deepfake Reddit créés par des bots. Les plates-formes de génération de texte en tant que service sont des sites Internet alimentés par l’IA qui permettent aux utilisateurs de créer simplement du texte synthétique et qui peuvent être utilisés à mauvais escient pour créer du contenu trompeur.

Les forces et les limites des approches de détection de deepfake text

Crédit : Pu et al

Pour évaluer de manière fiable les performances des six modèles de défense qu’ils ont sélectionnés pour détecter les textes deepfakes, les chercheurs ont proposé une série de stratégies d’évasion “à faible coût” qui ne nécessitent que des modifications du générateur de texte basé sur LM au moment de l’inférence. Cela signifie essentiellement que le LM générant le faux texte peut être adapté ou amélioré au cours des essais, sans nécessiter de formation supplémentaire.

“Nous avons également proposé une nouvelle stratégie d’évasion, appelée DFTFooler, qui peut perturber ou modifier automatiquement tout article de texte synthétique pour échapper à la détection, tout en préservant la sémantique”, a déclaré Viswanath. “DFTFooler utilise des LM accessibles au public et exploite des informations uniques sur le problème de détection de texte synthétique. Contrairement à d’autres schémas de perturbation contradictoires, DFTFooler ne nécessite aucun accès de requête au classificateur de défense de la victime pour créer des échantillons évasifs, ce qui en fait un outil d’attaque plus furtif et pratique. .”

Les évaluations de l’équipe ont donné plusieurs résultats intéressants. Premièrement, les chercheurs ont constaté que les performances de trois des six modèles de défense qu’ils ont évalués ont considérablement diminué lorsqu’ils ont été testés sur des ensembles de données du monde réel, avec une baisse de 18 % à 99 % de leur précision. Cela souligne la nécessité d’améliorer ces modèles pour s’assurer qu’ils se généralisent bien sur différentes données.

De plus, Viswanath et ses collègues ont constaté que la modification de la stratégie de décodage de texte d’un LM (c’est-à-dire l’échantillonnage de texte) brisait souvent de nombreuses défenses. Cette stratégie simple ne nécessite aucun réentraînement supplémentaire du modèle, car elle modifie uniquement les paramètres de génération de texte existants d’un LM et est donc très facile à appliquer pour les attaquants.

“Nous constatons également que notre nouvelle stratégie de manipulation de texte contradictoire appelée DFTFooler peut créer avec succès des échantillons évasifs sans nécessiter de requêtes au classificateur du défenseur”, a déclaré Viswanath. “Parmi les six défenses que nous avons évaluées, nous constatons qu’une défense appelée FAST est la plus résistante dans ces contextes contradictoires, par rapport aux autres défenses. Malheureusement, FAST a un pipeline complexe qui utilise plusieurs techniques avancées de PNL, ce qui rend plus difficile la compréhension de son meilleure performance.”

Pour mieux comprendre les qualités qui rendent le modèle FAST particulièrement résistant et fiable dans la détection de textes deepfake, les chercheurs ont mené une analyse approfondie de ses fonctionnalités. Ils ont constaté que la résilience du modèle est due à son utilisation de caractéristiques sémantiques extraites des articles.

Contrairement aux autres modèles de défense évalués dans cette étude, FAST analyse les caractéristiques sémantiques d’un texte, en examinant les entités nommées et les relations entre ces entités dans le texte. Cette qualité unique a semblé améliorer considérablement les performances du modèle sur les ensembles de données deepfake du monde réel.

Inspirés par ces découvertes, Viswanath et ses collègues ont créé DistilFAST, une version simplifiée de FAST qui analyse uniquement les caractéristiques sémantiques. Ils ont constaté que ce modèle surpassait le modèle FAST original dans des contextes contradictoires.

“Notre travail met en évidence le potentiel des fonctionnalités sémantiques pour permettre des schémas de détection synthétiques robustes face à l’adversaire”, a déclaré Viswanath. “Bien que FAST soit prometteur, il reste encore beaucoup à faire. La génération d’articles longs et cohérents sur le plan sémantique reste un problème difficile pour les LM. Par conséquent, les différences dans la représentation des informations sémantiques dans les articles synthétiques et réels peuvent être exploitées pour construire des défenses robustes. .”

Lorsqu’ils tentent de contourner les détecteurs de texte deepfake, les attaquants peuvent ne pas toujours être en mesure de modifier le contenu sémantique des textes synthétiques, en particulier lorsque ces textes sont conçus pour transmettre des idées spécifiques. À l’avenir, les découvertes recueillies par cette équipe de chercheurs et le modèle FAST simplifié qu’ils ont créé pourraient ainsi contribuer à renforcer les défenses contre les textes synthétiques en ligne, limitant potentiellement les campagnes de désinformation ou de radicalisation à grande échelle.

“Actuellement, cette direction n’a pas été étudiée dans la communauté de la sécurité”, a ajouté Viswanath. “Dans nos travaux futurs, nous prévoyons de tirer parti des graphes de connaissances pour extraire des fonctionnalités sémantiques plus riches, produisant, espérons-le, des défenses plus performantes et plus robustes.”

Plus d’information:
Jiameng Pu et al, Deepfake Text Detection: Limitations and Opportunities, arXiv (2022). DOI : 10.48550/arxiv.2210.09421

Yuanshun Yao et al, Automated Crowdturfing Attacks and Defenses in Online Review Systems, Actes de la conférence ACM SIGSAC 2017 sur la sécurité informatique et des communications (2017). DOI : 10.1145/3133956.3133990

Informations sur la revue :
arXiv

© 2022 Réseau Science X

Citation: Les forces et les limites des approches pour détecter le texte deepfake (2022, 21 novembre) récupéré le 21 novembre 2022 sur https://techxplore.com/news/2022-11-strengths-limitations-approaches-deepfake-text.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.