モデルがトレーニングからの分布の変化を処理する必要がある分布外 (OOD) 一般化は、機械学習の大きな課題です。対照的言語画像事前トレーニング (CLIP) モデルは優れたゼロショット能力を示していますが、下流のタスクに CLIP をさらに適応させると、望ましくないことに OOD パフォーマンスが低下します。このペーパーは、CLIP をダウンストリーム タスクの配布外テスト データに一般化することを目的としています。我々は、ドメインシフトとオープンクラスの両方が目に見えないテストデータで発生する可能性がある OOD 状況に CLIP モデルを適応させることができる微調整手法である CLIPood を提案します。テキスト モダリティからクラス間の意味関係を活用するために、CLIPood は、微調整のためのクラス適応マージンを備えた新しいトレーニング目標であるマージン メトリック ソフトマックス (MMS) を導入します。事前トレーニングされたゼロショット モデルと微調整されたタスク適応モデルの両方を組み込むために、CLIPood は新しい最適化戦略であるベータ移動平均 (BMA) を活用して、ベータ分布によって重み付けされた時間アンサンブルを維持します。さまざまな OOD シナリオを使用した多様なデータセットでの実験では、CLIPood が既存の一般化手法よりも一貫して優れていることが示されています。
Out-of-distribution (OOD) generalization, where the model needs to handle distribution shifts from training, is a major challenge of machine learning. Contrastive language-image pre-training (CLIP) models have shown impressive zero-shot ability, but the further adaptation of CLIP on downstream tasks undesirably degrades OOD performances. This paper aims at generalizing CLIP to out-of-distribution test data on downstream tasks. We propose CLIPood, a fine-tuning method that can adapt CLIP models to OOD situations where both domain shifts and open classes may occur on the unseen test data. To exploit the semantic relations between classes from the text modality, CLIPood introduces a new training objective, margin metric softmax (MMS), with class adaptive margins for fine-tuning. To incorporate both pre-trained zero-shot model and fine-tuned task-adaptive model, CLIPood leverages a new optimization strategy, Beta moving average (BMA), to maintain a temporal ensemble weighted by Beta distribution. Experiments on diverse datasets with different OOD scenarios show that CLIPood consistently outperforms existing generalization techniques.