De nouvelles techniques d’apprentissage en profondeur mènent à une percée dans l’imagerie des matériaux

De nouvelles techniques d'apprentissage en profondeur mènent à une percée dans l'imagerie des matériaux

Les techniques de l’équipe ont considérablement augmenté le nombre d’images pouvant être traitées simultanément lors de la formation des DNN. L’image ci-contre est l’une des nombreuses images de données de microscope électronique à transmission à balayage incluses dans ces simulations axées sur l’efficacité de mise à l’échelle. Crédit : Junqi Yin/ORNL, Département américain de l’énergie

Les superordinateurs aident les chercheurs à étudier les causes et les effets, généralement dans cet ordre, de phénomènes complexes. Cependant, les scientifiques ont parfois besoin de déduire les origines de phénomènes scientifiques sur la base de résultats observables. Ces problèmes dits inverses sont notoirement difficiles à résoudre, en particulier lorsque la quantité de données à analyser dépasse les outils traditionnels d’apprentissage automatique.

Pour mieux comprendre les problèmes inverses, une équipe du Laboratoire national d’Oak Ridge (ORNL) du Département américain de l’énergie (DOE), NVIDIA et Uber Technologies ont développé et démontré deux nouvelles techniques dans une bibliothèque de communication largement utilisée appelée Horovod.

Développée par Uber, cette plateforme forme des réseaux de neurones profonds (DNN) qui utilisent des algorithmes pour imiter et exploiter le pouvoir décisionnel du cerveau humain pour des applications scientifiques. Étant donné qu’Horovod s’appuie sur un seul coordinateur pour fournir des instructions à de nombreux travailleurs différents (c’est-à-dire aux GPU dans ce cas) pour mener à bien ce processus, les applications d’apprentissage en profondeur à grande échelle rencontrent souvent des ralentissements importants pendant la formation.

Les méthodes des chercheurs ont supprimé les étapes répétitives du processus traditionnel de coordination-travailleur pour augmenter la vitesse et surpasser les approches existantes, leur permettant ainsi de découvrir la toute première solution approximative à un problème inverse séculaire dans le domaine de l’imagerie des matériaux. Leurs résultats ont été publiés dans les Actes du 19e Symposium USENIX sur la conception et la mise en œuvre de systèmes en réseau.

“Pour autant que nous sachions, il s’agit du plus grand nombre d’opérations en virgule flottante par seconde jamais réalisées pour la formation distribuée d’un réseau neuronal convolutif”, a déclaré Junqi Yin, informaticien dans les méthodes d’analyse et d’IA de l’ORNL au sein du groupe Scale. “Nous prévoyons d’utiliser le code résultant, STEMDL, pour comparer les futures générations de supercalculateurs.”

Plus forts ensemble

Pour réduire la communication coordinateur-travailleur, qui implique souvent de répéter les mêmes demandes plusieurs fois, l’équipe a introduit un cache de réponse qui stocke les métadonnées de chaque demande dans Horovod. La première des nouvelles stratégies des scientifiques était cette approche de mise en cache, qui permet à Horovod de reconnaître immédiatement et de calculer automatiquement les demandes familières sans retarder la formation DNN.

Leur deuxième nouvelle technique consiste à regrouper les opérations mathématiques de plusieurs modèles DNN, ce qui rationalise les tâches et améliore l’efficacité de la mise à l’échelle – le nombre total d’images traitées par étape de formation – en tirant parti des similitudes dans les calculs de chaque modèle. Ce processus conduit également à des améliorations significatives de la consommation d’énergie.

En regroupant stratégiquement ces modèles, l’équipe vise à terme à former un modèle unique sur plusieurs GPU et à atteindre la même efficacité obtenue lors de la formation d’un modèle par GPU.

Josh Romero, ingénieur développeur en technologie chez NVIDIA, a intégré la nouvelle tactique dans Horovod pour permettre aux utilisateurs de former les DNN plus efficacement sur des machines informatiques hautes performances de toutes tailles.

“Tous les travailleurs doivent s’entendre sur l’ordre des opérations et sur les informations qui seront distribuées à un moment donné”, a déclaré Romero. “Nous avons trouvé un moyen d’améliorer ce processus logistique.”

Les deux méthodes ont amélioré les performances d’Horovod individuellement, mais leur combinaison a presque doublé l’efficacité de la mise à l’échelle, ce que l’équipe a mesuré en exécutant le code STEMDL sur les 27 600 GPU du système IBM AC922 Summit. Summit, le supercalculateur le plus rapide du pays, est situé à l’installation informatique d’Oak Ridge Leadership de l’ORNL, une installation utilisateur du DOE Office of Science.

“Ces capacités nous ont permis de former un seul réseau de neurones réparti sur l’ensemble de Summit avec une efficacité de mise à l’échelle beaucoup plus élevée et de bien meilleures performances de calcul que ce qui était auparavant possible à grande échelle”, a déclaré Nouamane Laanait, ancien scientifique en informatique à l’ORNL et chercheur principal de l’allocation Summit de l’équipe, qui a été accordée dans le cadre du programme Innovative and Novel Computational Impact on Theory and Experiment.

Les réseaux de neurones convolutifs tels que STEMDL sont des DNN idéaux pour les analyses d’images. L’équipe a conçu cette application spécifiquement pour résoudre un problème inverse d’imagerie des matériaux de longue date, qui nécessite une analyse précise des données du microscope électronique à transmission à balayage.

“L’un des avantages de l’utilisation de modèles de réseaux de neurones est que vous pouvez incorporer de nombreux facteurs difficiles à coder dans des approches mathématiques pour résoudre des problèmes inverses”, a déclaré Laanait. “En entraînant ces modèles sur des ensembles de données, vous pouvez leur apprendre à ignorer le bruit et d’autres imperfections.”

Architecture globale

Les composants uniques de Summit ont rendu cette recherche possible. Par exemple, la distribution de la formation DNN parmi les GPU du supercalculateur a révélé les goulots d’étranglement des performances présents dans les calculs Horovod traditionnels. Ces obstacles s’accumulent tout au long du processus de formation avant qu’ils ne deviennent apparents lorsqu’ils commencent à entraver les temps de calcul, ce qui les rend difficiles, voire impossibles à voir sur des systèmes plus petits.

“En une heure, vous savez à quel point la solution est précise, ce qui vous permet de peaufiner le prototype beaucoup plus rapidement que sur des systèmes plus petits, ce qui peut prendre des jours ou des semaines pour déterminer à quel point un modèle est exact ou dans quelle mesure vous avez mappé le problème à votre modèle, », a déclaré Laanait.

De plus, Summit dispose de voies de communication à large bande passante pour déplacer les données d’un endroit à l’autre, et son système de stockage local, connu sous le nom de tampon de rafale, dispose de suffisamment de mémoire pour permettre aux chercheurs de simuler et de stocker plus d’un téraoctet de données sur chaque nœud. Enfin, les cœurs NVIDIA Tensor, des unités de traitement spécialisées idéales pour les applications d’apprentissage en profondeur, ont accéléré le code de l’équipe et les ont aidés à atteindre des niveaux de performances supérieurs à ceux qui auraient été possibles avec des processeurs traditionnels.

Les découvertes de l’équipe pourraient être appliquées à des applications d’apprentissage en profondeur existantes et à des problèmes inverses non résolus auparavant pour répondre à des questions scientifiques fondamentales. À l’avenir, les chercheurs espèrent recréer leurs résultats en utilisant moins de puissance de calcul et former des modèles encore plus grands requis par la quantité toujours croissante de données générées par les installations expérimentales.

“Combiner des ensembles de données et des modèles plus volumineux avec plus de puissance de calcul augmente généralement l’efficacité des DNN”, a déclaré Laanait. “Nous ne savons pas quel est le plafond de ces améliorations, donc la seule façon de le savoir est de continuer à expérimenter.”


L’étude du réseau neuronal exploite la conception sur mesure pour associer les propriétés aux matériaux


Plus d’information:
Joshua Romero et al, Accelerating Collective Communication in Data Parallel Training across Deep Learning Frameworks, Actes du 19e Symposium USENIX sur la conception et la mise en œuvre de systèmes en réseau (4-6 avril 2022). www.usenix.org/system/files/ns … i22-paper-romero.pdf

Fourni par le laboratoire national d’Oak Ridge

Citation: De nouvelles techniques d’apprentissage en profondeur conduisent à une percée dans l’imagerie des matériaux (2022, 27 avril) récupéré le 27 avril 2022 sur https://techxplore.com/news/2022-04-deep-techniques-materials-imaging-breakthrough.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.