L’IA hiérarchique qui a remporté le concours NeurIPS-2020 MineRL

SEIHAI : L'IA hiérarchique qui a remporté le concours NeurIPS-2020 MineRL

Aperçu de l’architecture hiérarchique des chercheurs. Crédit : Mao et al

Ces dernières années, les outils informatiques basés sur l’apprentissage par renforcement ont obtenu des résultats remarquables dans de nombreuses tâches, notamment la classification d’images et la manipulation d’objets robotiques. Pendant ce temps, les informaticiens ont également formé des modèles d’apprentissage par renforcement pour jouer à des jeux humains et à des jeux vidéo spécifiques.

Pour défier les équipes de recherche travaillant sur les techniques d’apprentissage par renforcement, la conférence annuelle Neural Information Processing Systems (NeurIPS) a présenté le concours MineRL, un concours dans lequel différents algorithmes sont testés sur la même tâche dans Minecraft, le célèbre jeu informatique développé par Mojang Studios. Plus précisément, les candidats sont invités à créer des algorithmes qui devront obtenir un diamant à partir de pixels bruts dans le jeu Minecraft.

Les algorithmes ne peuvent être entraînés que pendant quatre jours et sur 8 000 000 d’échantillons créés par le simulateur MineRL, à l’aide d’une seule machine GPU. En plus de l’ensemble de données de formation, les participants reçoivent également une grande collection de démonstrations humaines (c’est-à-dire des images vidéo dans lesquelles la tâche est résolue par des joueurs humains).

Une équipe de chercheurs du Huawei Noah’s Ark Lab, de l’Université de Tianjin et de l’Université de Tsinghua a remporté le concours NeurIPS- MineRL 2020. À l’aide d’un outil d’intelligence artificielle (IA) hiérarchique efficace en échantillon appelé SEIHAI, les chercheurs ont pu surpasser tous les autres algorithmes participant au concours.

« Nous présentons SEIHAI, une IA hiérarchique efficace qui tire pleinement parti des démonstrations humaines et de la structure des tâches », ont écrit Hangyu Mao et ses collègues dans un article décrivant leur IA, qui a été prépublié sur arXiv. « Plus précisément, nous divisons la tâche en plusieurs sous-tâches dépendantes séquentiellement et formons un agent approprié pour chaque sous-tâche en utilisant l’apprentissage par renforcement et l’apprentissage par imitation. »

Pour obtenir un diamant dans Minecraft, les joueurs doivent suivre une série d’étapes. Séquentiellement, ils doivent couper un arbre pour créer une bûche, puis utiliser la bûche pour fabriquer une pioche en bois, qu’ils utiliseront ensuite pour creuser un pavé. Enfin, le pavé doit être placé dans un four et transformé en une pierre, qui peut être un diamant ou autre chose. Le diamant est rare dans le jeu, ce qui complique encore la tâche des participants à MineRL.

Pour accomplir la tâche le plus efficacement possible, Mao et ses collègues l’ont divisée en une série de sous-tâches, chacune nécessitant des compétences et des capacités différentes. Ils ont ensuite formé différents agents pour qu’ils s’attaquent individuellement à chacune des sous-tâches, en utilisant l’apprentissage par renforcement ou l’apprentissage par imitation, selon celui qui convenait le mieux au problème qu’ils essayaient de résoudre.

Pour décider quel agent était le mieux adapté à chacune des différentes sous-tâches, les chercheurs ont utilisé un planificateur, un outil qui sélectionnait un agent pour différentes situations en fonction des caractéristiques uniques de la sous-tâche à accomplir. Le modèle hiérarchique créé par les chercheurs a nettement surpassé tous les autres algorithmes et modèles participant au concours MineRL 2020, obtenant des résultats remarquables.

« Nous avons remporté la première place des préliminaires et des finales du concours NeurIPS-2020 MineRL, ce qui démontre l’efficacité de notre méthode hiérarchique, SEIHAI », ont écrit les chercheurs dans leur article. « Nous pensons que le développement de méthodes qui combinent correctement les antécédents humains et des techniques d’apprentissage efficaces sur l’échantillon est un moyen compétitif de résoudre des tâches complexes avec des démonstrations limitées, des récompenses clairsemées mais une structure de tâche explicite. »


Les robots qui décident de leur prochain mouvement ont besoin d’aide pour établir leurs priorités


Plus d’information:
Hangyu Mao et al, SEIHAI : Une IA hiérarchique efficace pour le concours MineRL. arXiv:2111.08857v1 [cs.LG], arxiv.org/abs/2111.08857

© 2021 Réseau Science X

Citation: SEIHAI : L’IA hiérarchique qui a remporté le concours NeurIPS-2020 MineRL (2021, 6 décembre) récupérée le 6 décembre 2021 sur https://techxplore.com/news/2021-12-seihai-hierarchical-ai-won-neurips-. html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.