Une procédure d’élimination en arrière pour améliorer la sélection de variables pour les réseaux de neurones profonds

SurvNet: une procédure d'élimination vers l'arrière pour améliorer la sélection de variables pour les réseaux de neurones profonds

SurvNet identifie les gènes qui différencient deux types de cellules différents sur les données de séquençage d’ARN monocellulaire (à gauche) et les pixels qui différencient les chiffres 4 et 9 sur les données d’image (à droite). Crédit: Song & Li (Nature Machine Intelligence, 2021).

Ces dernières années, les modèles basés sur des réseaux de neurones profonds ont obtenu des résultats remarquables sur de nombreuses tâches. Malgré leur grande précision de prédiction, ces modèles sont connus pour leur nature de «boîte noire», ce qui signifie essentiellement que les processus qui mènent à leurs prédictions sont difficiles à interpréter.

L’un des processus clés exécutés par un réseau neuronal profond lors de l’apprentissage de la prédiction est appelé sélection de variables. Essentiellement, cela implique la sélection de variables d’entrée qui ont un fort pouvoir prédictif (c’est-à-dire l’identification des caractéristiques des données qui permettent à un modèle de faire des prédictions très précises).

Des chercheurs de l’Université de Notre-Dame ont récemment développé SurvNet, une technique qui pourrait améliorer les processus de sélection de variables lors de la formation de réseaux de neurones profonds. Cette technique, présentée dans un article publié dans Intelligence artificielle de la nature, peut estimer et contrôler les taux de fausses découvertes pendant la sélection des variables (c’est-à-dire la mesure dans laquelle un réseau neuronal profond sélectionne des variables qui ne sont pas pertinentes pour la tâche qu’il est censé accomplir).

« Les gens considèrent généralement les réseaux de neurones profonds comme des boîtes noires (c’est-à-dire, même s’ils atteignent une précision de prédiction élevée, il est difficile d’expliquer pourquoi ils fonctionnent), et cela limite leurs applications dans des domaines qui nécessitent des modèles interprétables, tels que la biologie et la médecine », Jun Li, le chercheur principal qui a conçu l’étude, a déclaré à TechXplore. « Nous voulions concevoir une méthode pour interpréter les réseaux de neurones, en particulier pour savoir quelles variables d’entrée sont importantes pour le succès d’un réseau. »

Pour améliorer la sélection des variables, Li et son élève Zixuan Song ont développé SurvNet, une procédure d’élimination vers l’arrière qui peut être utilisée pour sélectionner de manière fiable des variables d’entrée pour les réseaux de neurones profonds. Essentiellement, SurvNet élimine progressivement les variables (c’est-à-dire les caractéristiques des données) qui ne sont pas pertinentes dans une tâche particulière, identifiant finalement celles qui ont le pouvoir prédictif le plus élevé.

« Par exemple, dans l’étude de la génomique, les chercheurs utilisent des données d’expression génique, qui consistent en l’expression de milliers de gènes (chaque gène est une variable d’entrée), pour diagnostiquer les maladies », a déclaré Li. « Un réseau neuronal profond peut être développé pour un tel diagnostic, mais nous voulions savoir quels gènes (généralement plusieurs ou dizaines) sont vraiment importants pour le diagnostic, afin que les chercheurs puissent faire d’autres expériences pour étudier ou valider ces gènes et en savoir plus sur les mécanismes de la maladie, pour enfin identifier les produits chimiques / médicaments qui s’attaquent à ces gènes et peuvent guérir une maladie spécifique. « 

Li et Song ont évalué SurvNet dans une série d’expériences sur des ensembles de données réels et simulés. De plus, ils ont comparé ses performances à celles d’autres techniques existantes de sélection de variables. Dans ces tests, SurvNet s’est comparé favorablement à d’autres méthodes, et bien que certaines techniques (par exemple, les méthodes basées sur des imitations) aient obtenu un taux de fausses découvertes plus faible sur des données avec des variables hautement corrélées, SurvNet avait généralement un pouvoir de sélection de variable plus élevé dans l’ensemble, ce qui permettait un meilleur commerce -off entre fausses découvertes et pouvoir.

« La caractéristique unique de SurvNet, c’est qu’il fournit un » contrôle de qualité « pour la sélection des variables, et ce contrôle de qualité est effectué en utilisant une méthode moderne et statistiquement rigide, en contrôlant le taux de fausses découvertes », a déclaré Li. «Un contrôle de qualité aussi strict est essentiel pour les études en biologie et en médecine, car de nouvelles validations (expérimentales) des résultats sont souvent coûteuses et prennent du temps».

Comparé à d’autres méthodes de sélection de variables, SurvNet est plus fiable et plus efficace en termes de calcul. À l’avenir, cela pourrait aider à améliorer la précision de prédiction et l’interprétabilité des modèles basés sur des réseaux de neurones profonds, en sélectionnant efficacement des variables avec un fort pouvoir prédictif.

«Notre étude fournit un outil pratique pour savoir quelles variables d’entrée sont importantes, et cet outil est automatique (aucune intervention humaine n’est nécessaire), fiable (permettant un contrôle qualité strict), efficace en termes de calcul (faible coût en temps ou en ressources de calcul) et polyvalent (applicable à une grande variété de problèmes) », a déclaré Li. « Dans nos prochaines études, nous prévoyons d’étendre SurvNet à des études non supervisées, telles que le clustering. »


Un cadre pour évaluer l’importance des variables pour différents modèles prédictifs


Plus d’information:
Sélection variable avec contrôle du taux de fausses découvertes dans les réseaux de neurones profonds. Intelligence artificielle de la nature(2021). DOI: 10.1038 / s42256-021-00308-z.

© Réseau Science X 2021

Citation: SurvNet: Une procédure d’élimination en arrière pour améliorer la sélection de variables pour les réseaux de neurones profonds (2021, 10 mai) récupéré le 10 mai 2021 sur https://techxplore.com/news/2021-05-survnet-procedure-variable-deep-neural. html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.