視覚的な事前トレーニング済みモデルを微調整すると、大規模な事前トレーニング データからのセマンティック情報を活用し、トレーニング例が限られている下流のビジョン タスクでのオーバーフィッティングの問題を軽減できます。事前トレーニングされたバックボーンにおける壊滅的な忘却の問題は、微調整のために広く研究されていますが、対応する事前トレーニングタスクとデータからの潜在的なバイアスはあまり注目されていません。この研究では、微調整後に取得された分類器が事前トレーニングされたモデルによって誘導された分類器に近いことを実証することで、この問題を調査します。分類器の偏りを効果的に減らすために、固定テキスト分類器から取得した参照分布を導入します。これは、学習されたビジョン分類器を正規化するのに役立ちます。提案された手法であるテキスト教師ありファインチューニング (TeS) は、ResNet や ViT を含むさまざまな事前トレーニング済みビジョン モデル、および BERT や CLIP を含むテキスト エンコーダを使用して、11 の下流タスクで評価されます。異なるシナリオに対して明確なマージンを伴う一貫した改善は、私たちの提案の有効性を裏付けています。コードは https://github.com/idstcv/TeS で入手できます。
Fine-tuning a visual pre-trained model can leverage the semantic information from large-scale pre-training data and mitigate the over-fitting problem on downstream vision tasks with limited training examples. While the problem of catastrophic forgetting in pre-trained backbone has been extensively studied for fine-tuning, its potential bias from the corresponding pre-training task and data, attracts less attention. In this work, we investigate this problem by demonstrating that the obtained classifier after fine-tuning will be close to that induced by the pre-trained model. To reduce the bias in the classifier effectively, we introduce a reference distribution obtained from a fixed text classifier, which can help regularize the learned vision classifier. The proposed method, Text Supervised fine-tuning (TeS), is evaluated with diverse pre-trained vision models including ResNet and ViT, and text encoders including BERT and CLIP, on 11 downstream tasks. The consistent improvement with a clear margin over distinct scenarios confirms the effectiveness of our proposal. Code is available at https://github.com/idstcv/TeS.