Trouver les aiguilles dans une botte de foin d’ensembles de données de grande dimension

Trouver les aiguilles dans une botte de foin d'ensembles de données de grande dimension

Comment fonctionne le nouvel algorithme de sélection de caractéristiques. Crédit : Université de Groningue

L’un des défis à l’ère du Big Data est de gérer de nombreuses variables indépendantes, également connues sous le nom de « malédiction de la dimensionnalité ». Par conséquent, il existe un besoin urgent de développer des algorithmes capables de sélectionner des sous-ensembles de caractéristiques pertinentes et ayant un pouvoir prédictif élevé. Pour résoudre ce problème, des informaticiens de l’Université de Groningue ont développé un nouvel algorithme de sélection de caractéristiques. La description et la validation de leur méthode ont été publiées dans la revue Systèmes experts avec applications le 16 septembre 2021.

La possibilité de sélectionner le sous-ensemble de caractéristiques le plus petit et le plus pertinent est souhaitable pour diverses raisons. Premièrement, il permet une analyse plus rapide et, par conséquent, plus évolutive. Deuxièmement, il en résulte une acquisition et un stockage de données moins coûteux. Troisièmement, cela facilite une meilleure explicabilité dans l’interaction entre les caractéristiques sélectionnées. « C’est une idée fausse que plus nous ajoutons de fonctionnalités, plus nous avons d’informations pour mieux juger », déclare George Azzopardi, professeur adjoint en informatique à l’Université de Groningue. « Il y a des situations où certaines fonctionnalités peuvent s’avérer complètement inutiles ou redondantes pour la tâche à accomplir. » De plus, la tâche d’expliquer le résultat d’une décision prise par un algorithme informatique devient plus compliquée avec un nombre croissant de variables indépendantes.

Interactions

« La sélection des fonctionnalités est largement utilisée et elle est réalisée à l’aide d’approches variées », explique Ahmad Alsahaf, chercheur postdoctoral à l’UMCG et premier auteur de l’article. Identifier les bonnes caractéristiques est assez difficile, c’est comme trouver une aiguille dans une botte de foin. Une approche naïve pour sélectionner le meilleur sous-ensemble serait une sélection par force brute qui évalue toutes les combinaisons possibles de caractéristiques. « Cependant, cette approche est insoluble pour un grand nombre de fonctionnalités », explique Alsahaf. D’autres approches utilisent, par exemple, des méthodes statistiques pour mesurer l’importance de chaque caractéristique individuelle par rapport à la variable dépendante.

Azzopardi explique que « Bien que ces approches soient très rapides, elles ne prennent pas en compte l’interaction possible entre les variables indépendantes. Par exemple, alors que deux variables indépendantes peuvent avoir un pouvoir discriminant très faible lorsqu’elles sont considérées individuellement, elles peuvent avoir un pouvoir prédictif très élevé lorsqu’elles sont considérées ensemble. . » Alsahaf a ajouté qu' »un exemple courant est l’interaction de gènes épistatiques, où la présence d’un gène affecte l’expression d’un autre. Les algorithmes de sélection de caractéristiques doivent être capables de détecter de telles interactions ».

Booster

Les informaticiens ont conçu un nouvel algorithme de sélection de caractéristiques qui repose sur ce que l’on appelle le boosting, qu’ils ont appelé FeatBoost. Alsahaf dit qu’ils « utilisent un modèle basé sur un arbre de décision pour sélectionner les caractéristiques les plus pertinentes. Nous créons et évaluons ensuite un modèle de classification en utilisant les caractéristiques sélectionnées jusqu’à présent. Tous les échantillons mal classés recevront plus d’importance dans la détermination de l’ensemble suivant des fonctionnalités les plus pertinentes, un processus appelé boosting. Ces étapes sont répétées jusqu’à ce que les performances du modèle de classification ne puissent plus s’améliorer. « 

Dans l’article, les scientifiques démontrent l’efficacité de leur algorithme sur divers ensembles de données de référence avec différentes propriétés et montrent comment il surpasse d’autres méthodes bien connues, telles que Boruta et ReliefF. En particulier, ils affirment que leur algorithme atteint des précisions plus élevées avec moins de fonctionnalités sur la plupart des ensembles de données qu’ils ont utilisés pour l’évaluation.

Le code source de l’algorithme est disponible sur GitHub.


Une nouvelle approche pour la prédiction des pannes logicielles à l’aide de la sélection de caractéristiques


Plus d’information:
Ahmad Alsahaf et al, A framework for feature selection through boosting, Systèmes experts avec applications (2021). DOI : 10.1016/j.eswa.2021.115895

Code source : github.com/amjams/FeatBoost

Fourni par l’Université de Groningue

Citation: Trouver les aiguilles dans une botte de foin d’ensembles de données de grande dimension (2021, 23 septembre) récupéré le 23 septembre 2021 à partir de https://techxplore.com/news/2021-09-needles-haystack-high-dimensional.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.