Nouvelle puce neuromorphique pour l’IA à la pointe, à une petite fraction de l’énergie et de la taille des plateformes informatiques d’aujourd’hui

Une nouvelle puce neuromorphique pour l'IA à la pointe, à une petite fraction de l'énergie et de la taille des plateformes de calcul d'aujourd'hui

Une équipe de chercheurs internationaux a conçu, fabriqué et testé la puce NeuRRAM. Crédit : David Baillot/Université de Californie à San Diego

Une équipe internationale de chercheurs a conçu et construit une puce qui exécute des calculs directement en mémoire et peut exécuter une grande variété d’applications d’IA, le tout à une fraction de l’énergie consommée par les plates-formes informatiques pour l’informatique d’IA à usage général.

La puce neuromorphique NeuRRAM rapproche l’IA de son fonctionnement sur une large gamme d’appareils périphériques, déconnectés du cloud, où ils peuvent effectuer des tâches cognitives sophistiquées n’importe où et n’importe quand sans dépendre d’une connexion réseau à un serveur centralisé. Les applications abondent dans tous les coins du monde et dans toutes les facettes de notre vie, et vont des montres intelligentes aux casques VR, aux écouteurs intelligents, aux capteurs intelligents dans les usines et aux rovers pour l’exploration spatiale.

La puce NeuRRAM n’est pas seulement deux fois plus économe en énergie que les puces “compute-in-memory” à la pointe de la technologie, une classe innovante de puces hybrides qui exécutent des calculs en mémoire, elle fournit également des résultats aussi précis que puces numériques conventionnelles. Les plates-formes d’IA conventionnelles sont beaucoup plus volumineuses et sont généralement contraintes d’utiliser de grands serveurs de données fonctionnant dans le cloud.

De plus, la puce NeuRRAM est très polyvalente et prend en charge de nombreux modèles et architectures de réseaux neuronaux différents. En conséquence, la puce peut être utilisée pour de nombreuses applications différentes, y compris la reconnaissance et la reconstruction d’images ainsi que la reconnaissance vocale.

“La sagesse conventionnelle est que l’efficacité supérieure du calcul en mémoire se fait au détriment de la polyvalence, mais notre puce NeuRRAM obtient l’efficacité sans sacrifier la polyvalence”, a déclaré Weier Wan, le premier auteur correspondant de l’article et un récent doctorat. diplômé de l’Université de Stanford qui a travaillé sur la puce à l’UC San Diego, où il a été co-dirigé par Gert Cauwenberghs au Département de bioingénierie.

L’équipe de recherche, codirigée par des bioingénieurs de l’Université de Californie à San Diego, présente ses résultats dans le numéro du 17 août de La nature.

Actuellement, l’IA informatique est à la fois gourmande en énergie et coûteuse en calcul. La plupart des applications d’IA sur les appareils périphériques impliquent le déplacement des données des appareils vers le cloud, où l’IA les traite et les analyse. Ensuite, les résultats sont transférés vers l’appareil. En effet, la plupart des appareils de périphérie sont alimentés par batterie et, par conséquent, ne disposent que d’une quantité limitée d’énergie pouvant être dédiée à l’informatique.

En réduisant la consommation d’énergie nécessaire à l’inférence de l’IA à la périphérie, cette puce NeuRRAM pourrait conduire à des dispositifs de périphérie plus robustes, plus intelligents et accessibles et à une fabrication plus intelligente. Cela pourrait également conduire à une meilleure confidentialité des données, car le transfert de données des appareils vers le cloud s’accompagne de risques de sécurité accrus.

Sur les puces AI, le déplacement des données de la mémoire vers les unités de calcul est un goulot d’étranglement majeur.

“C’est l’équivalent d’un trajet de huit heures pour une journée de travail de deux heures”, a déclaré Wan.

Pour résoudre ce problème de transfert de données, les chercheurs ont utilisé ce que l’on appelle la mémoire résistive à accès aléatoire, un type de mémoire non volatile qui permet le calcul directement dans la mémoire plutôt que dans des unités de calcul séparées. La RRAM et d’autres technologies de mémoire émergentes utilisées comme matrices de synapses pour l’informatique neuromorphique ont été mises au point dans le laboratoire de Philip Wong, conseiller de Wan à Stanford et principal contributeur à ce travail. Le calcul avec des puces RRAM n’est pas forcément nouveau, mais il conduit généralement à une diminution de la précision des calculs effectués sur la puce et à un manque de flexibilité dans l’architecture de la puce.

“Le calcul en mémoire est une pratique courante dans l’ingénierie neuromorphique depuis son introduction il y a plus de 30 ans”, a déclaré Cauwenberghs. “Ce qui est nouveau avec NeuRRAM, c’est que l’efficacité extrême va désormais de pair avec une grande flexibilité pour diverses applications d’IA avec presque aucune perte de précision par rapport aux plates-formes de calcul numériques à usage général standard.”

Une méthodologie soigneusement élaborée était la clé du travail avec plusieurs niveaux de “co-optimisation” à travers les couches d’abstraction du matériel et des logiciels, de la conception de la puce à sa configuration pour exécuter diverses tâches d’IA. De plus, l’équipe s’est assurée de tenir compte de diverses contraintes allant de la physique des dispositifs de mémoire aux circuits et à l’architecture du réseau.

“Cette puce nous fournit désormais une plate-forme pour résoudre ces problèmes à travers la pile, des appareils et circuits aux algorithmes”, a déclaré Siddharth Joshi, professeur adjoint d’informatique et d’ingénierie à l’Université de Notre Dame, qui a commencé à travailler sur le projet en tant que un doctorat étudiant et chercheur postdoctoral au laboratoire de Cauwenbergh à l’UC San Diego.

Une nouvelle puce neuromorphique pour l'IA à la pointe, à une petite fraction de l'énergie et de la taille des plateformes de calcul d'aujourd'hui

Un gros plan de la puce NeuRRAM. Crédit : David Baillot/Université de Californie à San Diego

Performances de la puce

Les chercheurs ont mesuré l’efficacité énergétique de la puce par une mesure connue sous le nom de produit à retard énergétique, ou EDP. L’EDP combine à la fois la quantité d’énergie consommée pour chaque opération et le temps nécessaire pour terminer l’opération. Par cette mesure, la puce NeuRRAM atteint un EDP 1,6 à 2,3 fois plus faible (moins c’est mieux) et une densité de calcul 7 à 13 fois plus élevée que les puces à la pointe de la technologie.

Les chercheurs ont exécuté diverses tâches d’IA sur la puce. Il a atteint une précision de 99 % sur une tâche de reconnaissance de chiffres manuscrits ; 85,7 % sur une tâche de classification d’images ; et 84,7 % sur une tâche de reconnaissance de commandes vocales Google. En outre, la puce a également permis de réduire de 70 % l’erreur de reconstruction d’image lors d’une tâche de récupération d’image. Ces résultats sont comparables aux puces numériques existantes qui effectuent des calculs avec la même précision au bit près, mais avec des économies d’énergie drastiques.

Les chercheurs soulignent que l’une des principales contributions de l’article est que tous les résultats présentés sont obtenus directement sur le matériel. Dans de nombreux travaux antérieurs sur les puces de calcul en mémoire, les résultats de référence de l’IA étaient souvent obtenus en partie par simulation logicielle.

Les prochaines étapes comprennent l’amélioration des architectures et des circuits et l’adaptation de la conception à des nœuds technologiques plus avancés. Les chercheurs prévoient également de s’attaquer à d’autres applications, telles que les réseaux de neurones à pointes.

“Nous pouvons faire mieux au niveau des appareils, améliorer la conception des circuits pour implémenter des fonctionnalités supplémentaires et répondre à diverses applications avec notre plate-forme dynamique NeuRRAM”, a déclaré Rajkumar Kubendran, professeur adjoint à l’Université de Pittsburgh, qui a commencé à travailler sur le projet alors qu’un Ph. .RÉ. étudiant dans le groupe de recherche de Cauwenberghs à l’UC San Diego.

De plus, Wan est membre fondateur d’une startup qui travaille à la production de la technologie de calcul en mémoire. “En tant que chercheur et ingénieur, mon ambition est de mettre les innovations de recherche des laboratoires en pratique”, a déclaré Wan.

Nouvelle architecture

La clé de l’efficacité énergétique de NeuRRAM est une méthode innovante pour détecter la sortie en mémoire. Les approches conventionnelles utilisent la tension comme entrée et mesurent le courant comme résultat. Mais cela conduit au besoin de circuits plus complexes et plus gourmands en énergie. Dans NeuRRAM, l’équipe a conçu un circuit neuronal qui détecte la tension et effectue une conversion analogique-numérique de manière économe en énergie. Cette détection en mode tension peut activer toutes les lignes et toutes les colonnes d’une matrice RRAM en un seul cycle de calcul, permettant un parallélisme plus élevé.

Dans l’architecture NeuRRAM, les circuits de neurones CMOS sont physiquement entrelacés avec des poids RRAM. Il diffère des conceptions conventionnelles où les circuits CMOS sont généralement à la périphérie des poids RRAM. Les connexions du neurone avec le réseau RRAM peuvent être configurées pour servir d’entrée ou de sortie du neurone. Cela permet l’inférence du réseau neuronal dans diverses directions de flux de données sans entraîner de surcharge en termes de surface ou de consommation d’énergie. Cela rend l’architecture plus facile à reconfigurer.

Pour s’assurer que la précision des calculs de l’IA peut être préservée dans diverses architectures de réseaux neuronaux, les chercheurs ont développé un ensemble de techniques de co-optimisation d’algorithmes matériels. Les techniques ont été vérifiées sur divers réseaux de neurones, y compris les réseaux de neurones convolutifs, la mémoire longue à court terme et les machines de Boltzmann restreintes.

En tant que puce d’IA neuromorphique, NeuroRRAM effectue un traitement distribué parallèle sur 48 cœurs neurosynaptiques. Pour atteindre simultanément une grande polyvalence et une grande efficacité, NeuRRAM prend en charge le parallélisme des données en mappant une couche du modèle de réseau neuronal sur plusieurs cœurs pour une inférence parallèle sur plusieurs données. En outre, NeuRRAM offre un parallélisme de modèle en mappant différentes couches d’un modèle sur différents cœurs et en effectuant une inférence de manière pipeline.

Une nouvelle puce neuromorphique pour l'IA à la pointe, à une petite fraction de l'énergie et de la taille des plateformes de calcul d'aujourd'hui

La puce NeuRRAM utilise une architecture innovante qui a été co-optimisée sur l’ensemble de la pile. Crédit : David Baillot/Université de Californie à San Diego

Une équipe de recherche internationale

Les travaux sont le fruit d’une équipe internationale de chercheurs.

L’équipe de l’UC San Diego a conçu les circuits CMOS qui implémentent les fonctions neuronales s’interfaçant avec les matrices RRAM pour prendre en charge les fonctions synaptiques dans l’architecture de la puce, pour une efficacité et une polyvalence élevées. Wan, travaillant en étroite collaboration avec toute l’équipe, a mis en œuvre la conception ; caractérisé la puce; formé les modèles d’IA ; et exécuté les expériences. Wan a également développé une chaîne d’outils logiciels qui mappe les applications d’IA sur la puce.

Le réseau de synapses RRAM et ses conditions de fonctionnement ont été largement caractérisés et optimisés à l’Université de Stanford.

La matrice RRAM a été fabriquée et intégrée sur CMOS à l’Université de Tsinghua.

L’équipe de Notre Dame a contribué à la fois à la conception et à l’architecture de la puce, ainsi qu’à la conception et à la formation du modèle d’apprentissage automatique qui a suivi.


Une macro nvCIM de quatre mégabits pour les appareils IA de pointe


Plus d’information:
Weier Wan, une puce de calcul en mémoire basée sur une mémoire résistive à accès aléatoire, La nature (2022). DOI : 10.1038/s41586-022-04992-8. www.nature.com/articles/s41586-022-04992-8

Fourni par Université de Californie – San Diego

Citation: Nouvelle puce neuromorphique pour l’IA à la pointe, à une petite fraction de l’énergie et de la taille des plateformes informatiques d’aujourd’hui (2022, 17 août) récupéré le 17 août 2022 sur https://techxplore.com/news/2022-08-neuromorphic- chip-ai-edge-small.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.