Solution statistique pour traiter efficacement de très grands ensembles de données avec une limite de mémoire

Une solution statistique pour traiter efficacement de très grands ensembles de données avec une limite de mémoire

L’estimation de la variance du nombre de grappes et de la taille de l’échantillon pour laquelle elle est maximale peut nous donner une estimation du nombre total de grappes pour l’ensemble de l’échantillon. Crédit: Ryo Maezono de JAIST.

Tout calcul haute performance doit être capable de traiter une grande quantité de données en peu de temps, un aspect important sur lequel reposent des domaines entiers (science des données, Big Data). Habituellement, la première étape pour gérer une grande quantité de données consiste soit à les classer en fonction d’attributs bien définis, soit – comme c’est généralement le cas en apprentissage automatique – à les «regrouper» en groupes de sorte que les points de données du même groupe soient plus similaires les uns aux autres qu’à ceux d’un autre groupe. Cependant, pour un ensemble de données extrêmement volumineux, qui peut contenir des milliards de points d’échantillonnage, il est même fastidieux de regrouper les points de données en un seul cluster sans énormes besoins en mémoire.

« Le problème peut être formulé comme suit: Supposons que nous ayons un outil de clustering qui peut traiter jusqu’à lmax échantillons. L’outil classe l (entrée) échantillons en M (l) groupes (en sortie) en fonction de certains attributs. Soit le nombre réel des échantillons soit L et G = M (L) le nombre total d’attributs que nous voulons trouver. Le problème est que si L est beaucoup plus grand que lmax, nous ne pouvons pas déterminer G en raison des limites de la capacité de mémoire », explique le professeur Ryo Maezono du Japan Advanced Institute of Science and Technology (JAIST), spécialisé dans la théorie computationnelle de la matière condensée.

Il est intéressant de noter que des échantillons de très grande taille sont courants en science des matériaux, où les calculs impliquant des substitutions atomiques dans une structure cristalline impliquent souvent des possibilités allant de plusieurs milliards de milliards de dollars. Cependant, un théorème mathématique appelé théorème de Polya, qui utilise la symétrie du cristal, simplifie souvent les calculs dans une large mesure. Malheureusement, le théorème de Polya ne fonctionne que pour les problèmes de symétrie et sa portée est donc limitée.

Dans une étude récente publiée dans Théorie et simulations avancées, une équipe de scientifiques dirigée par le professeur Maezono et son collègue, Keishu Utimula, Ph.D. en science des matériaux du JAIST (en 2020) et premier auteur de l’étude, a proposé une approche basée sur le hasard statistique pour identifier G pour des tailles d’échantillon beaucoup plus grandes (~ billion) que lmax. L’idée, essentiellement, est de choisir un échantillon de taille l qui est beaucoup plus petit que L, d’identifier M (l) en utilisant le «clustering» d’apprentissage automatique, et de répéter le processus en faisant varier l. Au fur et à mesure que l augmente, l’estimation M (l) converge vers M (L) ou G, à condition que G soit considérablement plus petit que lmax (ce qui est presque toujours satisfait). Cependant, il s’agit toujours d’une stratégie coûteuse en calcul, car il est difficile de savoir exactement quand la convergence a été réalisée.

Pour résoudre ce problème, les scientifiques ont mis en œuvre une autre stratégie ingénieuse: ils ont utilisé la «variance», ou le degré de propagation, de M (l). À partir d’un simple raisonnement mathématique, ils ont montré que la variance de M (l) ou V[M(l)], doit avoir un pic pour une taille d’échantillon ~ G. En d’autres termes, la taille d’échantillon correspondant à un maximum en V[M(l)] est approximativement G. De plus, des simulations numériques ont révélé que la variance du pic elle-même était égale à 0,1 fois G, et était donc une bonne estimation de G.

Bien que les résultats n’aient pas encore été vérifiés mathématiquement, la technique semble prometteuse de trouver des applications dans le calcul haute performance et l’apprentissage automatique. « La méthode décrite dans notre travail a une applicabilité beaucoup plus large que le théorème de Polya et peut, par conséquent, gérer une catégorie plus large de problèmes. De plus, elle ne nécessite qu’un outil de clustering d’apprentissage automatique pour trier les données et ne nécessite pas une grande mémoire ou un échantillonnage complet. «Cela peut rendre la technologie de reconnaissance IA réalisable pour des données de plus grande taille, même avec des outils de reconnaissance à petite échelle, ce qui peut améliorer leur commodité et leur disponibilité à l’avenir», déclare le professeur Maezono.


Un calcul de phonons réussi dans le cadre quantique de Monte Carlo


Plus d’information:
Keishu Utimula et al, Estimations stochastiques du nombre total de classes pour un clustering ayant des échantillons extrêmement grands à inclure dans le moteur de clustering, Théorie et simulations avancées (2021). DOI: 10.1002 / annonces.202000301

Fourni par le Japan Advanced Institute of Science and Technology

Citation: Solution statistique pour traiter efficacement de très grands ensembles de données avec une limite de mémoire (2021, 1er avril) récupéré le 14 avril 2021 sur https://techxplore.com/news/2021-04-statistical-solution-large-datasets-efficly.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.