対照的な言語-画像事前トレーニング(CLIP)モデルは、最近提案された大規模な事前トレーニングモデルであり、コンピュータービジョンコミュニティでますます注目を集めています。巨大な画像テキストトレーニングセットの恩恵を受けて、CLIPモデルはゼロショット学習と画像テキストマッチングの優れた機能を学習しました。一部のターゲットビジュアルコンセプトでのCLIPの認識パフォーマンスを向上させるには、追加のトレーニングデータで一部の関心クラスを微調整することにより、CLIPモデルをさらに更新することが望ましい場合がよくあります。ただし、この操作は重要な懸念を引き起こします。更新により、CLIPのゼロショット学習または画像とテキストのマッチング機能、つまり壊滅的な忘却の問題が損なわれるのでしょうか。はいの場合、既存の継続学習アルゴリズムを適応させて、壊滅的な忘却のリスクを軽減できますか?これらの質問に答えるために、この作業では、CLIPモデルの継続的な学習の問題に関する体系的な調査を実施します。更新の微調整の影響を測定するための評価プロトコルを構築し、CLIPモデルの忘却の問題を軽減するために既存の継続的な学習方法をアップグレードするさまざまな方法を探ります。私たちの研究は、CLIP継続学習問題の特定の課題を明らかにし、さらなる研究の基礎を築きます。さらに、CLIPモデルの忘却の問題を軽減するための正確な効果を示す、再生語彙による忘却なしの学習(VR-LwF)と呼ばれる新しいアルゴリズムを提案します。
The Contrastive Language-Image Pre-training (CLIP) Model is a recently proposed large-scale pre-train model which attracts increasing attention in the computer vision community. Benefiting from its gigantic image-text training set, the CLIP model has learned outstanding capabilities in zero-shot learning and image-text matching. To boost the recognition performance of CLIP on some target visual concepts, it is often desirable to further update the CLIP model by fine-tuning some classes-of-interest on extra training data. This operation, however, raises an important concern: will the update hurt the zero-shot learning or image-text matching capability of the CLIP, i.e., the catastrophic forgetting issue? If yes, could existing continual learning algorithms be adapted to alleviate the risk of catastrophic forgetting? To answer these questions, this work conducts a systemic study on the continual learning issue of the CLIP model. We construct evaluation protocols to measure the impact of fine-tuning updates and explore different ways to upgrade existing continual learning methods to mitigate the forgetting issue of the CLIP model. Our study reveals the particular challenges of CLIP continual learning problem and lays a foundation for further researches. Moreover, we propose a new algorithm, dubbed Learning without Forgetting via Replayed Vocabulary (VR-LwF), which shows exact effectiveness for alleviating the forgetting issue of the CLIP model.