機械学習の生涯学習パラダイムは、生物学的学習に類似しているだけでなく、過度のモデルの再トレーニングを回避することでエネルギーの浪費を減らす可能性があるため、より著名な孤立した学習スキームの魅力的な代替手段です。このパラダイムの重要な課題は、壊滅的な忘却の現象です。機械学習で事前トレーニングされたモデルの人気と成功が高まるにつれ、私たちは疑問を投げかけます。特に壊滅的な忘却に関して、事前トレーニングは生涯学習でどのような役割を果たしますか?大規模な事前トレーニング済みモデルのコンテキストで既存の方法を調査し、15の多様なNLPタスクの新しいデータセットを使用した大規模な研究を含むさまざまなテキストおよび画像分類タスクでのパフォーマンスを評価します。すべての設定で、一般的な事前トレーニングにより、ランダムに初期化されたモデルと比較して、複数のタスクを順次学習する場合の壊滅的な忘却の影響が暗黙的に軽減されることがわかります。次に、事前トレーニングがこの設定での忘却を軽減する理由をさらに調査します。損失の状況を分析することによってこの現象を研究し、事前にトレーニングされた重みがより広い最小値につながることによって忘却を容易にするように見えることを発見します。この洞察に基づいて、現在のタスク損失と損失流域のシャープネスを共同で最適化して、順次微調整中により広い流域を明示的に促進することを提案します。この最適化アプローチにより、タスクの数に応じてサイズが拡大するメモリを保持することなく、複数の設定にわたるタスクシーケンシャルな継続学習の最先端に匹敵するパフォーマンスが得られることを示します。
The lifelong learning paradigm in machine learning is an attractive alternative to the more prominent isolated learning scheme not only due to its resemblance to biological learning, but also its potential to reduce energy waste by obviating excessive model re-training. A key challenge to this paradigm is the phenomenon of catastrophic forgetting. With the increasing popularity and success of pre-trained models in machine learning, we pose the question: What role does pre-training play in lifelong learning, specifically with respect to catastrophic forgetting? We investigate existing methods in the context of large, pre-trained models and evaluate their performance on a variety of text and image classification tasks, including a large-scale study using a novel dataset of 15 diverse NLP tasks. Across all settings, we observe that generic pre-training implicitly alleviates the effects of catastrophic forgetting when learning multiple tasks sequentially compared to randomly initialized models. We then further investigate why pre-training alleviates forgetting in this setting. We study this phenomenon by analyzing the loss landscape, finding that pre-trained weights appear to ease forgetting by leading to wider minima. Based on this insight, we propose jointly optimizing for current task loss and loss basin sharpness in order to explicitly encourage wider basins during sequential fine-tuning. We show that this optimization approach leads to performance comparable to the state-of-the-art in task-sequential continual learning across multiple settings, without retaining a memory that scales in size with the number of tasks.