強化学習の大きな課題は、特に報酬がまばらであるか欺de的である場合のインテリジェントな探索です。 2つのAtariゲームは、MontezumaのRevengeとPitfallというハード探索ドメインのベンチマークとして機能します。どちらのゲームでも、現在のRLアルゴリズムは、内発的動機を備えたものであっても、パフォーマンスが不十分です。これは、ハード探索ドメインのパフォーマンスを向上させる主要な方法です。この不足に対処するために、Go-Exploreと呼ばれる新しいアルゴリズムを導入します。 (1)以前に訪れた状態を記憶し、(2)最初に有望な状態に戻り(探索せずに)、次にそこから探索し、(3)利用可能な手段でシミュレーション環境を解決します(決定論の導入を含む) 、模倣学習により堅牢化する。これらの原則を組み合わせた効果は、ハード探検の問題に対するパフォーマンスの劇的な改善です。モンテスマの復venでは、Go-Exploreの平均点は43kポイントを超え、これは従来の最新技術のほぼ4倍です。 Go-Exploreは、人間が提供するドメインの知識を活用することもでき、それを強化すると、Montezuma's Revengeで平均650kポイントを獲得します。約1800万の最大パフォーマンスは、人間の世界記録を上回り、「超人間」パフォーマンスの最も厳格な定義にさえ適合しています。 Pitfallでは、ドメイン知識を使用したGo-Exploreは、ゼロを超えるスコアを取得する最初のアルゴリズムです。ほぼ6万ポイントの平均スコアは、専門家の人間のパフォーマンスを上回ります。 Go-Exploreは高性能のデモを自動的かつ安価に生成するため、人間がソリューションのデモを提供する模倣学習作業よりも優れています。 Go-Exploreは、それを改善し、その洞察を現在のRLアルゴリズムに織り込むための多くの新しい研究の方向性を切り開きます。また、多くのドメイン、特にトレーニング中にシミュレーターを利用するもの(ロボティクスなど)で、以前は解決できなかったハード探査の問題の進行を可能にします。
A grand challenge in reinforcement learning is intelligent exploration, especially when rewards are sparse or deceptive. Two Atari games serve as benchmarks for such hard-exploration domains: Montezuma's Revenge and Pitfall. On both games, current RL algorithms perform poorly, even those with intrinsic motivation, which is the dominant method to improve performance on hard-exploration domains. To address this shortfall, we introduce a new algorithm called Go-Explore. It exploits the following principles: (1) remember previously visited states, (2) first return to a promising state (without exploration), then explore from it, and (3) solve simulated environments through any available means (including by introducing determinism), then robustify via imitation learning. The combined effect of these principles is a dramatic performance improvement on hard-exploration problems. On Montezuma's Revenge, Go-Explore scores a mean of over 43k points, almost 4 times the previous state of the art. Go-Explore can also harness human-provided domain knowledge and, when augmented with it, scores a mean of over 650k points on Montezuma's Revenge. Its max performance of nearly 18 million surpasses the human world record, meeting even the strictest definition of "superhuman" performance. On Pitfall, Go-Explore with domain knowledge is the first algorithm to score above zero. Its mean score of almost 60k points exceeds expert human performance. Because Go-Explore produces high-performing demonstrations automatically and cheaply, it also outperforms imitation learning work where humans provide solution demonstrations. Go-Explore opens up many new research directions into improving it and weaving its insights into current RL algorithms. It may also enable progress on previously unsolvable hard-exploration problems in many domains, especially those that harness a simulator during training (e.g. robotics).