arXiv reaDer
AlterSGD:代替トレーニングによる継続的な学習のためのフラットな最小値の検索
AlterSGD: Finding Flat Minima for Continual Learning by Alternative Training
ディープニューラルネットワークは、複数の知識を順番に学習するときに壊滅的な忘却に悩まされ、この問題を軽減するためにますます多くのアプローチが提案されています。これらの方法のいくつかは、継続的な学習における緩和を忘れることと平坦な極小値を関連付けることによって、かなりのパフォーマンスを達成しました。ただし、必然的に(1)面倒なハイパーパラメータの調整、および(2)追加の計算コストが必要になります。これらの問題を軽減するために、この論文では、AlterSGDと呼ばれるシンプルで効果的な最適化手法を提案し、損失の状況でフラットな最小値を検索します。 AlterSGDでは、新しい知識を学習する各セッションでネットワークが収束する傾向がある場合に、最急降下法と最急降下法を交互に実行します。さらに、そのような戦略が最適化をフラットな最小値に収束するように促すことができることを理論的に証明します。セマンティックセグメンテーションの継続学習ベンチマークでAlterSGDを検証し、経験的結果は、挑戦的な継続学習プロトコルの下で、忘却を大幅に軽減し、最先端の方法を大幅に上回ることができることを示しています。
Deep neural networks suffer from catastrophic forgetting when learning multiple knowledge sequentially, and a growing number of approaches have been proposed to mitigate this problem. Some of these methods achieved considerable performance by associating the flat local minima with forgetting mitigation in continual learning. However, they inevitably need (1) tedious hyperparameters tuning, and (2) additional computational cost. To alleviate these problems, in this paper, we propose a simple yet effective optimization method, called AlterSGD, to search for a flat minima in the loss landscape. In AlterSGD, we conduct gradient descent and ascent alternatively when the network tends to converge at each session of learning new knowledge. Moreover, we theoretically prove that such a strategy can encourage the optimization to converge to a flat minima. We verify AlterSGD on continual learning benchmark for semantic segmentation and the empirical results show that we can significantly mitigate the forgetting and outperform the state-of-the-art methods with a large margin under challenging continual learning protocols.
updated: Tue Jul 13 2021 01:43:51 GMT+0000 (UTC)
published: Tue Jul 13 2021 01:43:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト