Un framework de réseau de neurones accordable vers des modèles compacts et efficaces

« A la pointe de la technologie » : un cadre de réseau de neurones accordable vers des modèles compacts et efficaces

Crédit : Hot Chips 33

Les réseaux de neurones convolutifs (CNN) ont permis de nombreuses applications améliorées par l’IA, telles que la reconnaissance d’images. Cependant, la mise en œuvre de CNN à la pointe de la technologie sur les appareils de périphérie à faible puissance des réseaux Internet des objets (IoT) est difficile en raison des besoins importants en ressources. Des chercheurs de l’Institut de technologie de Tokyo ont désormais résolu ce problème grâce à leur architecture de processeur CNN éparse et leurs algorithmes de formation qui permettent une intégration transparente des modèles CNN sur les appareils périphériques.

Avec la prolifération des appareils de calcul et de stockage, nous sommes maintenant dans une ère centrée sur l’information dans laquelle l’informatique est omniprésente, avec des services de calcul migrant du cloud vers le « edge », permettant aux algorithmes d’être traités localement sur l’appareil. Ces architectures permettent un certain nombre d’applications intelligentes de l’Internet des objets (IoT) qui effectuent des tâches complexes, telles que la reconnaissance d’images.

Les réseaux de neurones convolutifs (CNN) se sont fermement établis comme l’approche standard pour les problèmes de reconnaissance d’images. Les CNN les plus précis impliquent souvent des centaines de couches et des milliers de canaux, ce qui augmente le temps de calcul et l’utilisation de la mémoire. Cependant, les CNN « clairsemés », obtenus par « élagage » (en supprimant les poids qui ne signifient pas les performances d’un modèle), ont considérablement réduit les coûts de calcul tout en maintenant la précision du modèle. De tels réseaux se traduisent par des versions plus compactes compatibles avec les appareils de périphérie. Les avantages, cependant, ont un coût : des techniques éparses limitent la réutilisation des poids et entraînent des structures de données irrégulières, les rendant inefficaces pour les paramètres du monde réel.

« A la pointe de la technologie » : un cadre de réseau de neurones accordable vers des modèles compacts et efficaces

Des chercheurs de Tokyo Tech ont proposé une nouvelle architecture CNN utilisant un réseau MAC (multiplier et accumuler) de produit cartésien dans la couche convolutive. Crédit : Hot Chips

Répondant à ce problème, le professeur Masato Motomura et le professeur Kota Ando de l’Institut de technologie de Tokyo (Tokyo Tech), Japon, ainsi que leurs collègues, ont maintenant proposé une nouvelle puce CNN clairsemée de 40 nm qui atteint à la fois une précision et une efficacité élevées, en utilisant un Tableau MAC (multiplier et accumuler) de produits cartésiens (figures 1 et 2) et « aligneurs d’activation en pipeline » qui déplacent spatialement les « activations » (l’ensemble des valeurs d’entrée/sortie, ou de manière équivalente, le vecteur d’entrée/sortie d’une couche) sur un tableau MAC cartésien normal.

« Les calculs réguliers et denses sur une matrice de calcul parallèle sont plus efficaces que les calculs irréguliers ou épars. Grâce à notre nouvelle architecture utilisant une matrice MAC et des aligneurs d’activation, nous avons pu réaliser un calcul dense de convolution éparse », explique le professeur Ando, ​​le chercheur principal , expliquant l’importance de l’étude. Il ajoute : « De plus, les poids nuls pourraient être éliminés à la fois du stockage et du calcul, ce qui se traduirait par une meilleure utilisation des ressources. Les résultats seront présentés au 33e Symposium annuel sur les frites chaudes.

Un aspect important du mécanisme proposé est sa « parcimonie ajustable ». Bien que la rareté puisse réduire la complexité des calculs et ainsi augmenter l’efficacité, le niveau de parcimonie a une influence sur la précision de la prédiction. Par conséquent, l’ajustement de la parcimonie à la précision et à l’efficacité souhaitées aide à démêler la relation précision-parité. Afin d’obtenir des modèles « clairsemés et quantifiés » hautement efficaces, les chercheurs ont appliqué des approches « d’élagage progressif » et de « quantification dynamique » (DQ) sur des modèles CNN formés sur des ensembles de données d’images standard, tels que CIFAR100 et ImageNet. L’élagage progressif impliquait un élagage par étapes incrémentielles en supprimant le plus petit poids dans chaque canal, tandis que DQ aidait à quantifier les poids des réseaux de neurones à des nombres de bits de faible longueur, les activations étant quantifiées pendant l’inférence. En testant le modèle élagué et quantifié sur un prototype de puce CNN, les chercheurs ont mesuré 5,30 TOPS/W denses (tera opérations par seconde par watt, une mesure permettant d’évaluer l’efficacité des performances), ce qui équivaut à 26,5 TOPS/W clairsemés du modèle de base.

« A la pointe de la technologie » : un cadre de réseau de neurones accordable vers des modèles compacts et efficaces

Le modèle entraîné a été élagué en supprimant le poids le plus faible dans chaque canal. Il ne reste qu’un élément après 8 tours de taille (élagué au 1/9). Chacun des modèles élagués est ensuite soumis à une quantification dynamique. Crédit : Hot Chips

« L’architecture proposée et son algorithme d’entraînement CNN clairsemé et efficace permettent d’intégrer des modèles CNN avancés dans des appareils de périphérie à faible consommation. Avec une gamme d’applications, des smartphones aux IoT industriels, notre étude pourrait ouvrir la voie à un changement de paradigme dans l’IA de périphérie. « , commente avec enthousiasme le professeur Motomura.

Il semble bien que l’avenir de l’informatique soit à la limite.


Améliorez les performances d’apprentissage automatique en supprimant les zéros


Plus d’information:
Kota Ando et al. Moteur d’inférence Edge pour les réseaux de neurones clairsemés profonds et aléatoires avec un tableau MAC de produit cartésien 4 bits et un aligneur d’activation en pipeline (2021). Symposium sur les frites chaudes 33

Fourni par l’Institut de technologie de Tokyo

Citation: À la pointe de la technologie : un cadre de réseau de neurones accordable vers des modèles compacts et efficaces (2021, 23 août) récupéré le 23 août 2021 sur https://techxplore.com/news/2021-08-edge-tunable-neural-network-framework .html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.