事前トレーニング済みのモデルを微調整することで、大規模な事前トレーニング データからの意味情報を活用し、トレーニング例が限られているダウンストリーム タスクでのオーバー フィッティングの問題を軽減できます。バックボーンにおける壊滅的な忘却の問題は広く研究されていますが、対応する事前トレーニングのタスクとデータに起因する事前トレーニング済みのモデルに存在する潜在的なバイアスは、あまり注目されていません。この作業では、微調整後に得られた分類器が事前トレーニング済みモデルによって誘導されたものに近いことを実証することにより、この問題を調査します。分類器の偏りを効果的に減らすために、固定テキスト分類器から取得した参照分布を導入します。これは、学習したビジョン分類器を正則化するのに役立ちます。提案された方法である Text Supervised fine-tuning (TeS) は、11 のダウンストリーム タスクで、ResNet や ViT などのさまざまな事前トレーニング済みビジョン モデル、および BERT や CLIP などのテキスト エンコーダーを使用して評価されます。さまざまなシナリオで明らかなマージンを伴う一貫した改善により、提案の有効性が確認されます。
Fine-tuning a pre-trained model can leverage the semantic information from large-scale pre-training data and mitigate the over-fitting problem on downstream tasks with limited training examples. While the problem of catastrophic forgetting in backbone has been extensively studied, the potential bias existing in a pre-trained model due to the corresponding pre-training task and data, attracts less attention. In this work, we investigate this problem by demonstrating that the obtained classifier after fine-tuning will be close to that induced by the pre-trained model. To reduce the bias in the classifier effectively, we introduce a reference distribution obtained from a fixed text classifier, which can help regularize the learned vision classifier. The proposed method, Text Supervised fine-tuning (TeS), is evaluated with diverse pre-trained vision models including ResNet and ViT, and text encoders including BERT and CLIP, on 11 downstream tasks. The consistent improvement with a clear margin over distinct scenarios confirms the effectiveness of our proposal.