Deep Reinforcement Learning with Double Q-learning
一般的なQ学習アルゴリズムは、特定の条件下でアクション値を過大評価することが知られています。実際には、そのような過大評価が一般的であるかどうか、パフォーマンスに悪影響を与えるかどうか、一般的に防止できるかどうかは、以前は知られていませんでした。このペーパーでは、これらすべての質問に肯定的に答えます。特に、Qラーニングとディープニューラルネットワークを組み合わせた最近のDQNアルゴリズムは、Atari 2600ドメインの一部のゲームでかなり過大評価されていることを最初に示します。次に、表形式の設定で導入されたダブルQ学習アルゴリズムの背後にある考え方が、大規模な関数近似で機能するように一般化できることを示します。 DQNアルゴリズムへの特定の適応を提案し、結果として生じるアルゴリズムが仮説として観測された過大評価を減らすだけでなく、これがいくつかのゲームではるかに優れたパフォーマンスにつながることを示します。
The popular Q-learning algorithm is known to overestimate action values under certain conditions. It was not previously known whether, in practice, such overestimations are common, whether they harm performance, and whether they can generally be prevented. In this paper, we answer all these questions affirmatively. In particular, we first show that the recent DQN algorithm, which combines Q-learning with a deep neural network, suffers from substantial overestimations in some games in the Atari 2600 domain. We then show that the idea behind the Double Q-learning algorithm, which was introduced in a tabular setting, can be generalized to work with large-scale function approximation. We propose a specific adaptation to the DQN algorithm and show that the resulting algorithm not only reduces the observed overestimations, as hypothesized, but that this also leads to much better performance on several games.
updated: Tue Dec 08 2015 21:19:16 GMT+0000 (UTC)
published: Tue Sep 22 2015 04:40:22 GMT+0000 (UTC)
