arXiv reaDer
継続的学習における事前トレーニング済みモデルの使用を疑問視する単純なベースライン
A Simple Baseline that Questions the Use of Pretrained-Models in Continual Learning
表現学習における事前訓練技術の成功により、事前訓練されたモデルに基づく多くの継続的な学習方法が提案されています。これらの方法のいくつかは、事前トレーニング済みの表現で継続的な学習メカニズムを設計し、継続的な学習のトレーニング中にバックボーン モデルの最小限の更新のみを許可するか、更新をまったく許可しません。このホワイト ペーパーでは、これらのモデルを設計した単純なベースラインと比較することにより、優れたパフォーマンスを達成するためにこれらのモデルの複雑さが必要かどうかを検討します。事前トレーニング済みの特徴抽出器自体は、Split-CIFAR100 および CoRe 50 ベンチマークで競争力のある、またはさらに優れた継続的な学習パフォーマンスを達成するのに十分強力であると主張しています。これを検証するために、1) 凍結された事前トレーニング済みモデルを使用して、継続的な学習段階で遭遇するすべてのクラスの画像特徴を抽出し、トレーニング データで対応する平均特徴を計算し、2) 入力のクラスを予測する、非常に単純なベースラインを実行します。テスト サンプル間の最近傍距離とクラスの平均フィーチャに基づく。つまり、Nearest Mean Classifier (NMC) です。このベースラインは単頭で、見本がなく、(手段を継続的に更新することにより) タスクを不要にすることができます。このベースラインは、10-Split-CIFAR-100 で 88.53% を達成し、同じ事前トレーニング済みの変換モデルを使用してすべて初期化された最先端の継続的学習方法を上回りました。私たちのベースラインが、学習表現に品質を継続的に追加できる学習システムの設計における将来の進歩を促進することを願っています。
With the success of pretraining techniques in representation learning, a number of continual learning methods based on pretrained models have been proposed. Some of these methods design continual learning mechanisms on the pre-trained representations and only allow minimum updates or even no updates of the backbone models during the training of continual learning. In this paper, we question whether the complexity of these models is needed to achieve good performance by comparing them to a simple baseline that we designed. We argue that the pretrained feature extractor itself can be strong enough to achieve a competitive or even better continual learning performance on Split-CIFAR100 and CoRe 50 benchmarks. To validate this, we conduct a very simple baseline that 1) use the frozen pretrained model to extract image features for every class encountered during the continual learning stage and compute their corresponding mean features on training data, and 2) predict the class of the input based on the nearest neighbor distance between test samples and mean features of the classes; i.e., Nearest Mean Classifier (NMC). This baseline is single-headed, exemplar-free, and can be task-free (by updating the means continually). This baseline achieved 88.53% on 10-Split-CIFAR-100, surpassing most state-of-the-art continual learning methods that are all initialized using the same pretrained transformer model. We hope our baseline may encourage future progress in designing learning systems that can continually add quality to the learning representations even if they started from some pretrained weights.
updated: Wed Mar 29 2023 10:05:04 GMT+0000 (UTC)
published: Mon Oct 10 2022 04:19:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト