Noisy Networks for Exploration
パラメトリックノイズを重みに追加した深層強化学習エージェントであるNoisyNetを導入し、エージェントのポリシーの誘導確率が効率的な探索を支援するために使用できることを示します。ノイズのパラメータは、残りのネットワークの重みとともに勾配降下で学習されます。 NoisyNetは実装が簡単で、計算オーバーヘッドがほとんどありません。 A3C、DQN、および決闘エージェントの従来の探索ヒューリスティック(それぞれエントロピー報酬とϵ貪欲)をNoisyNetに置き換えるとにより、幅広いAtariゲームでかなり高いスコアが得られ、場合によってはエージェントを人間以下から人間以上のパフォーマンスを生み出すことがわかります。
We introduce NoisyNet, a deep reinforcement learning agent with parametric noise added to its weights, and show that the induced stochasticity of the agent's policy can be used to aid efficient exploration. The parameters of the noise are learned with gradient descent along with the remaining network weights. NoisyNet is straightforward to implement and adds little computational overhead. We find that replacing the conventional exploration heuristics for A3C, DQN and dueling agents (entropy reward and ϵ-greedy respectively) with NoisyNet yields substantially higher scores for a wide range of Atari games, in some cases advancing the agent from sub to super-human performance.
updated: Tue Jul 09 2019 09:57:23 GMT+0000 (UTC)
published: Fri Jun 30 2017 17:56:19 GMT+0000 (UTC)
