arXiv reaDer
限られたデータでAtariゲームをマスターする
Mastering Atari Games with Limited Data
強化学習は、多くのアプリケーションで大きな成功を収めています。ただし、サンプルの効率は依然として重要な課題であり、トレーニングに数百万(または数十億)の環境ステップを必要とする著名な方法があります。最近、サンプル効率の高い画像ベースのRLアルゴリズムが大幅に進歩しました。ただし、Atariゲームベンチマークでの一貫した人間レベルのパフォーマンスは、とらえどころのない目標のままです。 MuZero上に構築されたサンプルの効率的なモデルベースのビジュアルRLアルゴリズムを提案します。これをEfficientZeroと名付けます。私たちの方法は、わずか2時間のリアルタイムゲーム体験でAtari 100kベンチマークで190.4%の平均人間パフォーマンスと116.0%の中央値パフォーマンスを達成し、DMControl100kベンチマークの一部のタスクで州のSACを上回っています。アルゴリズムがこのような少ないデータでAtariゲームで超人間的なパフォーマンスを達成するのはこれが初めてです。 EfficientZeroのパフォーマンスは2億フレームでのDQNのパフォーマンスにも近く、データの消費量は500分の1です。 EfficientZeroのサンプルの複雑さが低く、パフォーマンスが高いため、RLを実際の適用範囲に近づけることができます。アルゴリズムはわかりやすい方法で実装されており、https://github.com/YeWR/EfficientZeroで入手できます。それがより広いコミュニティでのMCTSベースのRLアルゴリズムの研究を加速することを願っています。
Reinforcement learning has achieved great success in many applications. However, sample efficiency remains a key challenge, with prominent methods requiring millions (or even billions) of environment steps to train. Recently, there has been significant progress in sample efficient image-based RL algorithms; however, consistent human-level performance on the Atari game benchmark remains an elusive goal. We propose a sample efficient model-based visual RL algorithm built on MuZero, which we name EfficientZero. Our method achieves 190.4% mean human performance and 116.0% median performance on the Atari 100k benchmark with only two hours of real-time game experience and outperforms the state SAC in some tasks on the DMControl 100k benchmark. This is the first time an algorithm achieves super-human performance on Atari games with such little data. EfficientZero's performance is also close to DQN's performance at 200 million frames while we consume 500 times less data. EfficientZero's low sample complexity and high performance can bring RL closer to real-world applicability. We implement our algorithm in an easy-to-understand manner and it is available at https://github.com/YeWR/EfficientZero. We hope it will accelerate the research of MCTS-based RL algorithms in the wider community.
updated: Sat Oct 30 2021 09:13:39 GMT+0000 (UTC)
published: Sat Oct 30 2021 09:13:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト