arXiv reaDer
デモンストレーションを効率的に使用して困難な探査問題を解決する
Making Efficient Use of Demonstrations to Solve Hard Exploration Problems
この論文では、デモンストレーションを効率的に使用して、初期条件が非常に変化する部分的に観測可能な環境での厳しい探査問題を解決するエージェントであるR2D3を紹介します。また、これら3つのプロパティを組み合わせた8つのタスクのスイートを紹介し、R2D3が他の最先端の方法(デモの有無にかかわらず)が数百億のステップの探索後に単一の成功軌道さえも見落とすいくつかのタスクを解決できることを示します。
This paper introduces R2D3, an agent that makes efficient use of demonstrations to solve hard exploration problems in partially observable environments with highly variable initial conditions. We also introduce a suite of eight tasks that combine these three properties, and show that R2D3 can solve several of the tasks where other state of the art methods (both with and without demonstrations) fail to see even a single successful trajectory after tens of billions of steps of exploration.
updated: Tue Sep 03 2019 18:20:48 GMT+0000 (UTC)
published: Tue Sep 03 2019 18:20:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト