Playing Atari with Deep Reinforcement Learning
強化学習を使用して高次元の感覚入力から直接制御ポリシーを正常に学習する最初の深層学習モデルを提示します。モデルは畳み込みニューラルネットワークであり、Q学習のバリアントでトレーニングされ、その入力は生のピクセルで、出力は将来の報酬を推定する値関数です。アーケード学習環境の7つのAtari 2600ゲームにこの方法を適用し、アーキテクチャや学習アルゴリズムを調整しません。これは、6つのゲームで以前のすべてのアプローチよりも優れており、3つのゲームで人間の専門家を上回っています。
We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw pixels and whose output is a value function estimating future rewards. We apply our method to seven Atari 2600 games from the Arcade Learning Environment, with no adjustment of the architecture or learning algorithm. We find that it outperforms all previous approaches on six of the games and surpasses a human expert on three of them.
updated: Thu Dec 19 2013 16:00:08 GMT+0000 (UTC)
published: Thu Dec 19 2013 16:00:08 GMT+0000 (UTC)
