Utiliser des techniques de généralisation pour rendre les systèmes d’IA plus polyvalents

Utiliser des techniques de généralisation pour rendre les systèmes d'IA plus polyvalents

Crédit : DeepMind

Un groupe de DeepMind appelé Open-Ended Learning Team a développé une nouvelle façon de former des systèmes d’IA pour jouer à des jeux. Au lieu de l’exposer à des millions de jeux antérieurs, comme c’est le cas avec d’autres systèmes d’IA de jeu, le groupe de DeepMind a donné à ses nouveaux agents de système d’IA un ensemble de compétences minimales qu’ils utilisent pour atteindre un objectif simple (comme repérer un autre joueur dans un monde virtuel) et ensuite s’appuyer dessus. Les chercheurs ont créé un monde virtuel appelé XLand, un monde virtuel coloré qui a une apparence générale de jeu vidéo. Dans ce document, les joueurs d’IA, que les chercheurs appellent des agents, partent pour atteindre un objectif général et, ce faisant, ils acquièrent des compétences qu’ils peuvent utiliser pour atteindre d’autres objectifs. Les chercheurs changent ensuite le jeu, donnant aux agents un nouvel objectif mais leur permettant de conserver les compétences qu’ils ont acquises lors des jeux précédents. Le groupe a rédigé un article décrivant leurs efforts et l’a publié sur le serveur de préimpression arXiv.

Un exemple de la technique implique un agent tentant de se frayer un chemin vers une partie de son monde qui est trop haute pour y grimper directement et pour laquelle il n’y a pas de points d’accès tels que des escaliers ou des rampes. En trépignant, l’agent constate qu’il peut déplacer un objet plat qu’il trouve pour servir de rampe et ainsi se frayer un chemin jusqu’à l’endroit où il doit aller. Pour permettre à leurs agents d’acquérir plus de compétences, les chercheurs ont créé 700 000 scénarios ou jeux dans lesquels les agents devaient faire face à environ 3,4 millions de tâches uniques. En adoptant cette approche, les agents ont pu apprendre par eux-mêmes à jouer à plusieurs jeux, tels que le tag, la capture du drapeau et le cache-cache. Les chercheurs appellent leur approche un défi sans fin. Un autre aspect intéressant de XLand est qu’il existe une sorte de suzerain, une entité qui garde un œil sur les agents et note les compétences qu’ils apprennent, puis génère de nouveaux jeux pour renforcer leurs compétences. Avec cette approche, les agents continueront d’apprendre tant qu’on leur confiera de nouvelles tâches.






En gérant leur monde virtuel, les chercheurs ont découvert que les agents ont acquis de nouvelles compétences, généralement par accident, qu’ils ont trouvées utiles et qu’ils les ont ensuite développées, conduisant à des compétences plus avancées telles que le recours à l’expérimentation lorsqu’ils sont à court d’options, la coopération avec d’autres agents. et apprendre à utiliser les objets comme outils. Ils suggèrent que leur approche est une étape vers la création d’algorithmes généralement capables qui apprennent à jouer à de nouveaux jeux par eux-mêmes, des compétences qui pourraient un jour être utilisées par des robots autonomes.


L’amour des enfants pour les jeux vidéo peut améliorer l’apprentissage en classe, selon une étude


Plus d’information:
Adam Stooke et al, L’apprentissage ouvert mène à des agents généralement capables, arXiv:2107.12808v1 [cs.LG] arxiv.org/abs/2107.12808

deepmind.com/blog/article/gene … from-open-ended-play

© 2021 Réseau Science X

Citation: Utilisation de techniques de généralisation pour rendre les systèmes d’IA plus polyvalents (2021, 2 août) récupéré le 2 août 2021 sur https://techxplore.com/news/2021-08-techniques-ai-versatile.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.