機械学習における生涯学習パラダイムは、生物学的学習に似ているだけでなく、過剰なモデルの再トレーニングを回避することでエネルギーの無駄を削減できる可能性があるため、より顕著な孤立学習スキームに代わる魅力的な選択肢です。このパラダイムに対する重要な課題は、壊滅的な忘却現象です。機械学習における事前トレーニング済みモデルの人気と成功が高まるにつれ、私たちは次のような疑問を投げかけています。事前トレーニングは生涯学習において、特に壊滅的な忘却に関してどのような役割を果たしているのでしょうか?私たちは、大規模な事前トレーニング済みモデルのコンテキストで既存の手法を調査し、15 の多様な NLP タスクの新しいデータセットを使用した大規模研究を含む、さまざまなテキストおよび画像分類タスクにおけるパフォーマンスを評価します。すべての設定において、一般的な事前トレーニングは、ランダムに初期化されたモデルと比較して、複数のタスクを順次学習する際の壊滅的な忘却の影響を暗黙的に軽減することが観察されています。次に、この設定で事前トレーニングによって物忘れが軽減される理由をさらに調査します。私たちは損失状況を分析することでこの現象を研究し、事前に訓練された重みがより広い最小値をもたらすことで忘れを軽減するように見えることを発見しました。この洞察に基づいて、現在のタスクの損失と損失盆地のシャープネスを共同で最適化し、連続的な微調整中により広い盆地を明示的に奨励することを提案します。この最適化アプローチは、場合によってはタスクの数に応じてサイズが変わるメモリを保持しなくても、複数の設定にわたっていくつかの最先端のタスク逐次型継続学習アルゴリズムよりも優れたパフォーマンスを発揮することを示します。
The lifelong learning paradigm in machine learning is an attractive alternative to the more prominent isolated learning scheme not only due to its resemblance to biological learning but also its potential to reduce energy waste by obviating excessive model re-training. A key challenge to this paradigm is the phenomenon of catastrophic forgetting. With the increasing popularity and success of pre-trained models in machine learning, we pose the question: What role does pre-training play in lifelong learning, specifically with respect to catastrophic forgetting? We investigate existing methods in the context of large, pre-trained models and evaluate their performance on a variety of text and image classification tasks, including a large-scale study using a novel data set of 15 diverse NLP tasks. Across all settings, we observe that generic pre-training implicitly alleviates the effects of catastrophic forgetting when learning multiple tasks sequentially compared to randomly initialized models. We then further investigate why pre-training alleviates forgetting in this setting. We study this phenomenon by analyzing the loss landscape, finding that pre-trained weights appear to ease forgetting by leading to wider minima. Based on this insight, we propose jointly optimizing for current task loss and loss basin sharpness to explicitly encourage wider basins during sequential fine-tuning. We show that this optimization approach outperforms several state-of-the-art task-sequential continual learning algorithms across multiple settings, occasionally even without retaining a memory that scales in size with the number of tasks.