arXiv reaDer
Pseudo-Rehearsal: Achieving Deep Reinforcement Learning without Catastrophic Forgetting
ニューラルネットワークは、さまざまなアプリケーションで優れた結果を達成できます。しかし、順番に学習しようとすると、前のタスクを壊滅的に忘れながら、新しいタスクを学習する傾向があります。画像分類領域と強化学習領域の両方で継続学習からのアイデアを組み合わせることにより、順次強化学習における壊滅的な忘却を克服するモデルを提案します。このモデルは、継続学習を強化学習から分離するデュアルメモリシステムと、深い生成ネットワークを介して前のタスクを表すアイテムを「リコール」する疑似リハーサルシステムを備えています。私たちのモデルは、壊滅的な忘却を示すことなくAtari 2600ゲームを順次学習し、3つのゲームすべてで人間レベルを超えてパフォーマンスを続けます。この結果は、タスクの数が増えるにつれて追加のストレージ要件を要求したり、生データを保存したり、過去のタスクを再検討したりすることなく達成されます。比較すると、以前の最先端のソリューションは、これらの複雑な深層強化学習タスクを忘れることに対して実質的により脆弱です。
Neural networks can achieve excellent results in a wide variety of applications. However, when they attempt to sequentially learn, they tend to learn the new task while catastrophically forgetting previous ones. We propose a model that overcomes catastrophic forgetting in sequential reinforcement learning by combining ideas from continual learning in both the image classification domain and the reinforcement learning domain. This model features a dual memory system which separates continual learning from reinforcement learning and a pseudo-rehearsal system that "recalls" items representative of previous tasks via a deep generative network. Our model sequentially learns Atari 2600 games without demonstrating catastrophic forgetting and continues to perform above human level on all three games. This result is achieved without: demanding additional storage requirements as the number of tasks increases, storing raw data or revisiting past tasks. In comparison, previous state-of-the-art solutions are substantially more vulnerable to forgetting on these complex deep reinforcement learning tasks.
updated: Wed Dec 16 2020 21:38:56 GMT+0000 (UTC)
published: Thu Dec 06 2018 11:20:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト