継続的な学習エージェントは、非定常で終わりのないデータストリームでオンラインで学習します。このような学習プロセスの鍵は、以前に見たデータの壊滅的な忘却を克服することです。これは、ニューラルネットワークのよく知られている問題です。忘却を防ぐため、リハーサルの目的で、通常、リプレイバッファーを使用して以前のデータを保存します。以前の作品は、多くの場合、タスクの境界とi.i.d.に依存しています。リプレイバッファのサンプルを適切に選択するための前提。この作業では、継続的な学習の制約付き最適化ビューに基づいて、制約選択問題としてサンプル選択を定式化します。目標は、元の制約によって定義された実行可能領域に最も近い制約の固定サブセットを選択することです。これは、特徴としてパラメーターグラデーションを使用して、リプレイバッファー内のサンプルの多様性を最大化することと同等であることを示しています。さらに、安価で効率的な貪欲な代替手段を開発します。提案された方法の利点は、継続的な学習設定の下で他の選択肢と比較することによって実証されます。私たちの方法に匹敵する、またはさらに良い結果を示すタスク境界に依存する最先端の方法に対して、さらに比較が行われます。
A continual learning agent learns online with a non-stationary and never-ending stream of data. The key to such learning process is to overcome the catastrophic forgetting of previously seen data, which is a well known problem of neural networks. To prevent forgetting, a replay buffer is usually employed to store the previous data for the purpose of rehearsal. Previous works often depend on task boundary and i.i.d. assumptions to properly select samples for the replay buffer. In this work, we formulate sample selection as a constraint reduction problem based on the constrained optimization view of continual learning. The goal is to select a fixed subset of constraints that best approximate the feasible region defined by the original constraints. We show that it is equivalent to maximizing the diversity of samples in the replay buffer with parameters gradient as the feature. We further develop a greedy alternative that is cheap and efficient. The advantage of the proposed method is demonstrated by comparing to other alternatives under the continual learning setting. Further comparisons are made against state of the art methods that rely on task boundaries which show comparable or even better results for our method.