L’agent d’IA peut apprendre la base de cause à effet d’une tâche de navigation pendant la formation

l'agent peut apprendre la base de cause à effet d'une tâche de navigation pendant la formation

Des chercheurs du MIT ont démontré qu’une classe spéciale de réseaux de neurones d’apprentissage en profondeur est capable d’apprendre la véritable structure de cause à effet d’une tâche de navigation pendant la formation. Crédit : Massachusetts Institute of Technology

Les réseaux de neurones peuvent apprendre à résoudre toutes sortes de problèmes, de l’identification des chats sur les photos à la conduite d’une voiture autonome. Mais la question de savoir si ces puissants algorithmes de reconnaissance de modèles comprennent réellement les tâches qu’ils effectuent reste une question ouverte.

Par exemple, un réseau neuronal chargé de garder une voiture autonome dans sa voie pourrait apprendre à le faire en observant les buissons au bord de la route, plutôt que d’apprendre à détecter les voies et à se concentrer sur l’horizon de la route.

Des chercheurs du MIT ont maintenant montré qu’un certain type de réseau neuronal est capable d’apprendre la véritable structure de cause à effet de la tâche de navigation pour laquelle il est entraîné. Étant donné que ces réseaux peuvent comprendre la tâche directement à partir de données visuelles, ils devraient être plus efficaces que les autres réseaux de neurones lors de la navigation dans un environnement complexe, comme un endroit avec des arbres denses ou des conditions météorologiques changeant rapidement.

À l’avenir, ce travail pourrait améliorer la fiabilité et la fiabilité des agents d’apprentissage automatique qui effectuent des tâches à enjeux élevés, comme conduire un véhicule autonome sur une autoroute très fréquentée.

« Parce que ces systèmes d’apprentissage automatique inspirés du cerveau sont capables d’effectuer un raisonnement de manière causale, nous pouvons savoir et indiquer comment ils fonctionnent et prennent des décisions. C’est essentiel pour les applications critiques pour la sécurité », explique le co-auteur principal Ramin Hasani. , post-doctorant au Laboratoire d’Informatique et Intelligence Artificielle (CSAIL).

Les co-auteurs comprennent un étudiant diplômé en génie électrique et en informatique et co-auteur principal Charles Vorbach; Doctorat CSAIL étudiant Alexander Amini; Mathias Lechner, étudiant diplômé de l’Institut des sciences et technologies d’Autriche; et auteur principal Daniela Rus, professeur Andrew et Erna Viterbi de génie électrique et d’informatique et directeur de CSAIL. La recherche sera présentée à la conférence 2021 sur les systèmes de traitement de l’information neuronale (NeurIPS) en décembre.

Un résultat accrocheur

Les réseaux de neurones sont une méthode d’apprentissage automatique dans laquelle l’ordinateur apprend à effectuer une tâche par essais et erreurs en analysant de nombreux exemples de formation. Et les réseaux de neurones « liquides » modifient leurs équations sous-jacentes pour s’adapter en permanence aux nouvelles entrées.

La nouvelle recherche s’appuie sur des travaux antérieurs dans lesquels Hasani et d’autres ont montré comment un type de système d’apprentissage en profondeur inspiré par le cerveau appelé Neural Circuit Policy (NCP), construit par des cellules de réseau de neurones liquides, est capable de contrôler de manière autonome un véhicule autonome, avec un réseau de seulement 19 neurones de contrôle.

Les chercheurs ont observé que les PCN effectuant une tâche de maintien de voie gardaient leur attention sur l’horizon et les frontières de la route lorsqu’ils prenaient une décision de conduite, de la même manière qu’un humain le ferait (ou devrait) en conduisant une voiture. Les autres réseaux neuronaux qu’ils ont étudiés ne se sont pas toujours concentrés sur la route.

« C’était une observation intéressante, mais nous ne l’avons pas quantifiée. Nous voulions donc trouver les principes mathématiques expliquant pourquoi et comment ces réseaux sont capables de capturer la véritable causalité des données », dit-il.

Ils ont découvert que, lorsqu’un PCN est formé pour accomplir une tâche, le réseau apprend à interagir avec l’environnement et à rendre compte des interventions. Essentiellement, le réseau reconnaît si sa sortie est modifiée par une certaine intervention, puis relie la cause et l’effet ensemble.

Pendant la formation, le réseau est exécuté en avant pour générer une sortie, puis en arrière pour corriger les erreurs. Les chercheurs ont observé que les PCN établissent une relation de cause à effet en mode avant et en mode arrière, ce qui permet au réseau de porter une attention très ciblée sur la véritable structure causale d’une tâche.

Hasani et ses collègues n’avaient pas besoin d’imposer de contraintes supplémentaires au système ou d’effectuer une configuration spéciale pour que le PCN apprenne cette causalité – elle est apparue automatiquement pendant la formation.

Altération des changements environnementaux

Ils ont testé les PCN à travers une série de simulations dans lesquelles des drones autonomes effectuaient des tâches de navigation. Chaque drone utilisait les entrées d’une seule caméra pour naviguer.

Les drones étaient chargés de se rendre vers un objet cible, de poursuivre une cible en mouvement ou de suivre une série de marqueurs dans des environnements variés, notamment une forêt de séquoias et un quartier. Ils ont également voyagé dans différentes conditions météorologiques, comme un ciel clair, de fortes pluies et du brouillard.

Les chercheurs ont découvert que les NCP fonctionnaient aussi bien que les autres réseaux sur des tâches plus simples par beau temps, mais les surpassaient tous sur les tâches les plus difficiles, telles que la poursuite d’un objet en mouvement à travers une tempête de pluie.

« Nous avons observé que les PCN sont le seul réseau qui prête attention à l’objet d’intérêt dans différents environnements tout en effectuant la tâche de navigation, partout où vous la testez, et dans différentes conditions d’éclairage ou d’environnement. C’est le seul système qui peut le faire avec désinvolture et apprenons réellement le comportement que nous souhaitons que le système apprenne », dit-il.

Leurs résultats montrent que l’utilisation de NCP pourrait également permettre aux drones autonomes de naviguer avec succès dans des environnements aux conditions changeantes, comme un paysage ensoleillé qui devient soudainement brumeux.

« Une fois que le système a appris ce qu’il est censé faire, il peut fonctionner correctement dans de nouveaux scénarios et conditions environnementales qu’il n’a jamais connus. C’est un grand défi des systèmes d’apprentissage automatique actuels qui ne sont pas causals. Nous pensons que ces résultats sont très excitants , car ils montrent comment la causalité peut émerger du choix d’un réseau de neurones », dit-il.

À l’avenir, les chercheurs souhaitent explorer l’utilisation des PCN pour construire des systèmes plus grands. La mise en place de milliers ou de millions de réseaux pourrait leur permettre de s’attaquer à des tâches encore plus complexes.


Nouveaux modèles d’apprentissage en profondeur : moins de neurones, plus d’intelligence


Plus d’information:
Charles Vorbach et al, Navigation causale par réseaux de neurones à temps continu. arXiv:2106.08314v2 [cs.LG], arxiv.org/abs/2106.08314

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: L’agent d’IA peut apprendre la base de cause à effet d’une tâche de navigation pendant la formation (2021, 14 octobre) récupéré le 14 octobre 2021 à partir de https://techxplore.com/news/2021-10-ai-agent-cause-and -effect-base-task.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.