Asynchronous Methods for Deep Reinforcement Learning
ディープニューラルネットワークコントローラーの最適化に非同期勾配降下を使用する、ディープ強化学習のための概念的にシンプルで軽量なフレームワークを提案します。 4つの標準強化学習アルゴリズムの非同期バリアントを提示し、パラレルアクターラーナーがトレーニングに安定化効果をもたらし、4つの方法すべてがニューラルネットワークコントローラーを正常にトレーニングできることを示します。アクター批評家の非同期バリアントである最高のパフォーマンスを発揮する方法は、GPUではなく単一のマルチコアCPUで半分の時間トレーニングしながら、Atariドメインの現在の最先端技術を上回ります。さらに、非同期の俳優-批評家は、視覚入力を使用してランダムな3D迷路をナビゲートするという新しいタスクだけでなく、さまざまな連続的なモーター制御の問題にも成功することを示します。
We propose a conceptually simple and lightweight framework for deep reinforcement learning that uses asynchronous gradient descent for optimization of deep neural network controllers. We present asynchronous variants of four standard reinforcement learning algorithms and show that parallel actor-learners have a stabilizing effect on training allowing all four methods to successfully train neural network controllers. The best performing method, an asynchronous variant of actor-critic, surpasses the current state-of-the-art on the Atari domain while training for half the time on a single multi-core CPU instead of a GPU. Furthermore, we show that asynchronous actor-critic succeeds on a wide variety of continuous motor control problems as well as on a new task of navigating random 3D mazes using a visual input.
updated: Thu Jun 16 2016 16:38:45 GMT+0000 (UTC)
published: Thu Feb 04 2016 18:38:41 GMT+0000 (UTC)
