Un modèle pour classer les textes financiers tout en protégeant la vie privée des utilisateurs

Un modèle pour classer les textes financiers tout en protégeant la vie privée des utilisateurs

Schéma résumant le pipeline du modèle imaginé par les chercheurs. Crédit : Basu et al.

Au cours de la dernière décennie, les informaticiens ont développé une variété de modèles d’apprentissage automatique (ML) capables d’analyser de grandes quantités de données à la fois rapidement et efficacement. Pour être appliqués dans des situations réelles impliquant l’analyse de données hautement sensibles, ces modèles devraient toutefois protéger la vie privée des utilisateurs et empêcher que les informations n’atteignent des tiers ou soient consultées par les développeurs.

Des chercheurs du Manipal Institute of Technology, de l’Université Carnagie Mellon et de l’Université technique de Yildiz ont récemment créé un modèle basé sur la confidentialité pour l’analyse et la classification des textes financiers. Ce modèle, présenté dans un article prépublié sur arXiv, est basé sur une combinaison de techniques de traitement du langage naturel (NLP) et d’apprentissage automatique.

« Notre article était basé sur nos travaux précédents, intitulés » Analyse comparative de la confidentialité différentielle et de l’apprentissage fédéré pour les modèles BERT «  », a déclaré Priyam Basu, l’un des chercheurs qui a mené l’étude. Tech Xplore. « Ce travail était notre modeste tentative de combiner les domaines du traitement du langage naturel (NLP) et de l’apprentissage automatique préservant la confidentialité. »

L’objectif principal des récents travaux de Basu et de ses collègues était de développer un modèle NLP qui préserve la confidentialité des utilisateurs, empêchant l’accès à leurs données par d’autres. Un tel modèle pourrait être particulièrement utile pour l’analyse des relevés bancaires, déclarations fiscales et autres documents financiers sensibles.

« L’apprentissage automatique est principalement basé sur des données et vous donne des informations, des prédictions et des informations basées sur des données », a déclaré Basu. « Par conséquent, il est très important pour nous d’approfondir la recherche sur la façon de préserver la confidentialité des utilisateurs en même temps. »

Le cadre développé par Basu et ses collègues est basé sur deux approches connues sous le nom de confidentialité différentielle et d’apprentissage fédéré, combinées à des représentations d’encodeur bidirectionnel à partir de transformateurs (BERT), qui sont des modèles NLP renommés et largement utilisés. Les techniques de confidentialité différentielle ajoutent une certaine quantité de bruit aux données qui alimentent le modèle. En conséquence, la partie traitant les données (par exemple, les développeurs, les entreprises technologiques ou d’autres sociétés) ne peut pas accéder aux vrais documents et données, car des éléments individuels sont cachés.

« L’apprentissage fédéré, d’autre part, est une méthode de formation d’un modèle sur plusieurs appareils décentralisés afin qu’aucun appareil n’ait accès à l’ensemble des données à la fois », a expliqué Basu. « BERT est un modèle de langage qui fournit des intégrations contextualisées pour le texte en langage naturel qui peuvent être utilisées ultérieurement pour plusieurs tâches, telles que la classification, le marquage de séquences, l’analyse sémantique, etc. »

Basu et ses collègues ont utilisé la stratégie qu’ils ont développée pour former plusieurs modèles de PNL pour la classification de textes financiers. Ils ont ensuite évalué ces modèles dans une série d’expériences, où ils les ont utilisés pour analyser les données de l’ensemble de données Financial Phrase Bank. Leurs résultats étaient très prometteurs, car ils ont constaté que les modèles NLP fonctionnaient aussi bien que d’autres techniques de pointe pour l’analyse de textes financiers, tout en assurant une plus grande protection des données.

L’étude de ces chercheurs pourrait avoir des implications importantes pour plusieurs industries, y compris à la fois le secteur financier et d’autres domaines qui impliquent l’analyse de données utilisateur sensibles. À l’avenir, les nouveaux modèles qu’ils ont développés pourraient contribuer à augmenter considérablement la confidentialité associée aux techniques de PNL qui analysent les informations personnelles et financières.

« La classification et la catégorisation basées sur des données en langage naturel sont utilisées dans de nombreux domaines et, par conséquent, nous avons fourni un moyen de faire de même tout en préservant la confidentialité des données des utilisateurs, ce qui est très important dans la finance, où les données utilisées sont très sensibles. et confidentiel », a déclaré Basu. « Nous prévoyons maintenant d’améliorer la précision obtenue par notre modèle, tout en n’ayant pas trop à perdre sur le compromis de confidentialité. Nous espérons également explorer d’autres techniques pour atteindre la même chose ainsi que d’effectuer d’autres tâches de PNL comme NER, Sémantique analyse et clustering à l’aide de DP et FL. »


Former d’énormes modèles d’IA dans les soins de santé tout en protégeant la confidentialité des données


Plus d’information:
La classification des textes financiers a permis la confidentialité en utilisant la confidentialité différentielle et l’apprentissage fédéré. arXiv:2110.01643 [cs.CL]. arxiv.org/abs/2110.01643

Analyse comparative de la confidentialité différentielle et de l’apprentissage fédéré pour les modèles BERT. arXiv : 2106.13973 [cs.CL]. arxiv.org/abs/2106.13973

© 2021 Réseau Science X

Citation: Un modèle pour classer les textes financiers tout en protégeant la vie privée des utilisateurs (2021, 13 octobre) récupéré le 13 octobre 2021 sur https://techxplore.com/news/2021-10-financial-texts-users-privacy.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.