arXiv reaDer
継続的な微調整のための表現シフトの緩和
Alleviating Representational Shift for Continual Fine-tuning
継続学習の実際的な設定を研究します。事前にトレーニングされたモデルを継続的に微調整します。以前の作業では、新しいタスクのトレーニング時に、以前のデータの機能(最後から2番目のレイヤー表現)が変化することがわかりました。これは、表現シフトと呼ばれます。機能のシフトに加えて、中間層の表現シフト(IRS)も重要であることがわかります。これは、バッチの正規化を混乱させるためです。これは、壊滅的な忘却のもう1つの重大な原因です。これを動機として、クロスコンボリューションバッチ正規化(Xconv BN)と階層的微調整の2つのコンポーネントを組み込んだ微調整方法であるConFiTを提案します。 Xconv BNは、畳み込み後ではなく畳み込み前の実行平均を維持し、テスト前に畳み込み後の平均を回復します。これにより、IRSでの平均の不正確な推定値が修正されます。階層的な微調整は、多段階の戦略を活用して事前にトレーニングされたネットワークを微調整し、Convレイヤーの大幅な変更を防ぎ、IRSを軽減します。 4つのデータセットでの実験結果は、私たちの方法が、ストレージのオーバーヘッドが少ないいくつかの最先端の方法を著しく上回っていることを示しています。
We study a practical setting of continual learning: fine-tuning on a pre-trained model continually. Previous work has found that, when training on new tasks, the features (penultimate layer representations) of previous data will change, called representational shift. Besides the shift of features, we reveal that the intermediate layers' representational shift (IRS) also matters since it disrupts batch normalization, which is another crucial cause of catastrophic forgetting. Motivated by this, we propose ConFiT, a fine-tuning method incorporating two components, cross-convolution batch normalization (Xconv BN) and hierarchical fine-tuning. Xconv BN maintains pre-convolution running means instead of post-convolution, and recovers post-convolution ones before testing, which corrects the inaccurate estimates of means under IRS. Hierarchical fine-tuning leverages a multi-stage strategy to fine-tune the pre-trained network, preventing massive changes in Conv layers and thus alleviating IRS. Experimental results on four datasets show that our method remarkably outperforms several state-of-the-art methods with lower storage overhead.
updated: Sun May 08 2022 07:28:18 GMT+0000 (UTC)
published: Fri Apr 22 2022 06:58:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト