Un réseau de neurones récurrent qui déduit la structure temporelle globale basée sur des exemples locaux

Un réseau de neurones récurrent qui déduit la structure temporelle globale basée sur des exemples locaux

Après avoir formé le RNN sur quelques versions traduites de l’attracteur de Lorenz, le RNN stocke l’attracteur en tant que mémoire et peut traduire sa représentation interne du Lorenz en modifiant les variables de contexte. Crédit: Kim et al.

La plupart des systèmes informatiques sont conçus pour stocker et manipuler des informations, telles que des documents, des images, des fichiers audio et d’autres données. Alors que les ordinateurs conventionnels sont programmés pour effectuer des opérations spécifiques sur des données structurées, les systèmes neuro-inspirés émergents peuvent apprendre à résoudre des tâches de manière plus adaptative, sans avoir à être conçus pour effectuer un type défini d’opérations.

Des chercheurs de l’Université de Pennsylvanie et de l’Université de Californie ont récemment formé un réseau neuronal récurrent (RNN) pour adapter sa représentation d’informations complexes en se basant uniquement sur des exemples de données locales. Dans un article publié dans Intelligence artificielle de la nature, ils ont présenté ce RNN et décrit le mécanisme d’apprentissage clé qui sous-tend son fonctionnement.

«Chaque jour, nous manipulons des informations sur le monde pour faire des prédictions», a déclaré Jason Kim, l’un des chercheurs qui ont mené l’étude, à TechXplore. «Combien de temps puis-je cuire ces pâtes avant qu’elles ne deviennent détrempées? Combien de temps puis-je partir au travail avant l’heure de pointe? Cette représentation et ce calcul d’informations entrent généralement dans la catégorie de la mémoire de travail. Bien que nous puissions programmer un ordinateur pour créer des modèles de la texture des pâtes ou les temps de trajet, notre objectif principal était de comprendre comment un réseau de neurones apprend à construire des modèles et à faire des prédictions uniquement en observant des exemples. « 

Kim, son mentor Danielle S. Bassett et le reste de leur équipe ont montré que les deux mécanismes clés par lesquels un réseau de neurones apprend à faire des prédictions sont les associations et le contexte. Par exemple, s’ils voulaient apprendre à leur RNN à changer la hauteur d’une chanson, ils lui donnaient la chanson originale et deux autres versions de celle-ci, l’une avec une hauteur légèrement plus élevée et l’autre avec une hauteur légèrement inférieure.

Pour chaque changement de hauteur, les chercheurs ont «biaisé» le RNN avec une variable de contexte. Par la suite, ils l’ont formé à stocker les chansons originales et modifiées dans sa mémoire de travail. Cela a permis au RNN d’associer l’opération de changement de hauteur à la variable de contexte et de manipuler sa mémoire pour modifier davantage la hauteur d’une chanson, simplement en changeant la variable de contexte.

« Quand l’un de nos collaborateurs, Zhixin Lu, nous a parlé d’un RNN qui pourrait apprendre à stocker des informations dans la mémoire de travail, nous savions que notre objectif était en vue », a déclaré Kim. « Théoriquement, le RNN évolue dans le temps selon une équation. Nous avons dérivé l’équation qui quantifie comment un petit changement dans la variable de contexte provoque un petit changement dans la trajectoire du RNN et avons demandé quelles conditions doivent être remplies pour le petit changement dans le La trajectoire de RNN pour produire le changement de représentation souhaité. « 

Un réseau de neurones récurrent qui déduit la structure temporelle globale basée sur des exemples locaux

Après avoir entraîné le RNN sur quelques trajectoires stables du système de Lorenz, le RNN apprend à inférer correctement la bifurcation dans la structure globale de Lorenz. Crédit: Kim et al.

Kim et ses collègues ont observé que lorsque les différences entre les exemples de données d’entraînement étaient faibles (p. Ex., Petites différences / changements de hauteur), leur RNN associait les différences à la variable de contexte. Notamment, leur étude identifie également un mécanisme simple par lequel les réseaux de neurones peuvent apprendre des calculs en utilisant leur mémoire de travail.

« Un bon exemple est en fait vu dans une vidéo populaire d’un chat traque », a expliqué Kim. « Ici, la caméra se déplace périodiquement dans et hors de vue et le chat enregistré ne se rapproche que lorsque la caméra est hors de vue et reste figé lorsque la caméra est en vue. Rien qu’en observant les premiers mouvements, nous pouvons prédire le résultat final. : un chat proximal. « 

Alors que de nombreuses études antérieures ont montré comment les réseaux de neurones manipulent leurs sorties, les travaux de Kim et de ses collègues sont parmi les premiers à identifier un mécanisme neuronal simple par lequel les RNN manipulent leurs souvenirs, tout en les conservant même en l’absence d’entrées.

« Notre découverte la plus notable est que non seulement les RNN apprennent à manipuler en permanence les informations dans la mémoire de travail, mais ils font en fait des inférences précises sur la structure globale lorsqu’ils ne sont formés que sur des exemples très locaux », a déclaré Kim. « C’est un peu comme prédire avec précision les mélodies florissantes de la Fantaisie Impromptu de Chopin après avoir entendu seulement les premières notes. »

Le récent article de Kim et ses collègues introduit un modèle quantitatif avec des hypothèses falsifiables de mémoire de travail qui pourraient également être pertinentes dans le domaine des neurosciences. En outre, il décrit les principes de conception qui pourraient aider à comprendre les réseaux de neurones qui sont généralement perçus comme des boîtes noires (c’est-à-dire qui n’expliquent pas clairement les processus derrière leurs prédictions).

«Nos résultats démontrent également que, lorsqu’ils sont conçus correctement, les réseaux de neurones ont un pouvoir incroyable pour généraliser avec précision en dehors de leurs exemples de formation», a déclaré Kim. « Nous explorons actuellement de nombreuses autres directions de recherche passionnantes. Celles-ci vont de l’étude des changements dans la représentation interne du RNN pendant l’apprentissage à l’utilisation de variables de contexte pour basculer entre les mémoires, à la programmation de calculs dans les RNN sans formation. »


SurvNet: une procédure d’élimination vers l’arrière pour améliorer la sélection de variables pour les réseaux de neurones profonds


Plus d’information:
Jason Z. Kim et al, Enseigner les réseaux de neurones récurrents pour inférer la structure temporelle globale à partir d’exemples locaux, Intelligence artificielle de la nature (2021). DOI: 10.1038 / s42256-021-00321-2

© Réseau Science X 2021

Citation: Un réseau de neurones récurrent qui déduit la structure temporelle globale basée sur des exemples locaux (2021, 1er juin) récupéré le 1er juin 2021 sur https://techxplore.com/news/2021-06-recurrent-neural-network-infers-global. html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.