Une méthode améliorée de génération de données synthétiques résout les principaux problèmes de confidentialité dans la recherche

ai

Crédit : Pixabay/CC0 domaine public

Le manque de données est un goulot d’étranglement majeur pour de nombreux types de recherche, et en particulier pour le développement de meilleurs traitements et médicaments médicaux. Ces données sont extrêmement sensibles et, naturellement, les personnes comme les entreprises sont souvent réticentes à partager leurs informations avec d’autres.

Des chercheurs du Centre finlandais d’intelligence artificielle ont développé une méthode basée sur l’apprentissage automatique qui produit des données synthétiques sur la base d’ensembles de données originaux, permettant aux chercheurs de partager leurs données entre eux. Cela pourrait résoudre le problème persistant de la rareté des données dans la recherche médicale et dans d’autres domaines où l’information est sensible.

Les données générées préservent la confidentialité et restent suffisamment similaires aux données d’origine pour être utilisées à des fins d’analyses statistiques. Avec la nouvelle méthode, les chercheurs peuvent effectuer un nombre infini d’analyses sans compromettre l’identité des individus impliqués dans l’expérience originale.

« Ce que nous faisons, c’est peaufiner suffisamment les données d’origine pour pouvoir garantir mathématiquement qu’aucun individu ne peut être reconnu », explique Samuel Kaski, professeur à l’Université Aalto et directeur de FCAI, co-auteur de l’étude.

Les chercheurs ont déjà produit et utilisé des données synthétiques, mais la nouvelle étude résout un problème majeur avec les méthodes existantes.

« Nous pourrions penser que ce n’est pas nécessairement le cas parce que les données sont synthétiques, mais cela n’a pas nécessairement été le cas », explique Kaski.

En effet, les données synthétiques doivent être très similaires à l’ensemble de données d’origine pour être utiles dans la recherche. Dans la pratique, il a parfois été possible d’identifier l’identité des individus malgré l’anonymisation.

Pour résoudre ce problème, les chercheurs de FCAI utilisent l’intelligence artificielle, en particulier la modélisation probabiliste. Cela leur permet d’utiliser des connaissances préalables sur les données d’origine et les processus qui les ont rendues telles qu’elles sont, sans trop s’approcher des propriétés de l’ensemble de données particulier utilisé comme base pour les données synthétiques. Une telle connaissance préalable, par exemple, pourrait être liée à des différences connues entre les sexes dans la mortalité liée à l’alcool, ou pourrait impliquer une connaissance du domaine sur la manière dont un ensemble de données particulier a été collecté.

L’utilisation de connaissances antérieures a également rendu les ensembles de données synthétiques plus utiles pour faire des découvertes statistiques correctes, même dans les cas où l’ensemble de données d’origine est de taille limitée, ce qui est courant dans la recherche médicale.

« L’intégration des connaissances préalables signifie que nous pouvons utiliser la méthode avec de petits ensembles de données, pour lesquels nous avons une connaissance du domaine », explique Kaski.

Les résultats sont publiés le 7 juin dans la revue Motifs.


L’intelligence artificielle produit des données synthétiquement pour aider à traiter des maladies comme COVID-19


Plus d’information:
Joonas Jälkö et al, Partage de données préservant la confidentialité via la modélisation probabiliste, Motifs (2021). DOI: 10.1016/j.patter.2021.100271

Fourni par l’Université Aalto

Citation: Une méthode améliorée de génération de données synthétiques résout les principaux problèmes de confidentialité dans la recherche (2021, 7 juin) récupéré le 7 juin 2021 à partir de https://techxplore.com/news/2021-06-method-synthetic-major-privacy-issues.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.