モデルがトレーニングからの分布シフトを処理する必要がある分布外 (OOD) 一般化は、機械学習の主要な課題です。最近、対照的な言語イメージ事前トレーニング (CLIP) モデルが印象的なゼロショット能力を示し、OOD の一般化への有望な道筋を明らかにしました。ただし、ゼロショットのパフォーマンスを向上させるには、下流のタスクで CLIP をさらに適応させることが不可欠ですが、望ましくないことに OOD の一般化機能が低下します。このホワイト ペーパーでは、ダウンストリーム タスクのディストリビューション外のテスト データに CLIP を一般化することを目的としています。ドメイン シフトとオープン クラスという 2 つの標準的な OOD 状況を超えて、目に見えないテスト データで両方の OOD 状況が発生する可能性がある、より一般的ではあるが難しい実際の設定に取り組みます。 CLIPood は、CLIP モデルをすべての OOD 状況に適応できる簡単な微調整方法です。テキスト モダリティからクラス間のセマンティックな関係を活用するために、CLIPood は新しいトレーニング目標であるマージン メトリック ソフトマックス (MMS) を導入し、微調整のためのクラス適応マージンを備えています。さらに、事前トレーニング済みのゼロ ショット モデルと微調整されたタスク適応モデルの両方を組み込むために、CLIPood は新しいベータ移動平均 (BMA) を提案して、ベータ分布に従って一時的なアンサンブルを維持します。さまざまな OOD シナリオを使用したさまざまなデータセットでの実験では、CLIPood が既存の一般化手法よりも一貫して優れていることが示されています。
Out-of-distribution (OOD) generalization, where the model needs to handle distribution shifts from training, is a major challenge of machine learning. Recently, contrastive language-image pre-training (CLIP) models have shown impressive zero-shot ability, revealing a promising path toward OOD generalization. However, to boost upon zero-shot performance, further adaptation of CLIP on downstream tasks is indispensable but undesirably degrades OOD generalization ability. In this paper, we aim at generalizing CLIP to out-of-distribution test data on downstream tasks. Beyond the two canonical OOD situations, domain shift and open class, we tackle a more general but difficult in-the-wild setting where both OOD situations may occur on the unseen test data. We propose CLIPood, a simple fine-tuning method that can adapt CLIP models to all OOD situations. To exploit semantic relations between classes from the text modality, CLIPood introduces a new training objective, margin metric softmax (MMS), with class adaptive margins for fine-tuning. Moreover, to incorporate both the pre-trained zero-shot model and the fine-tuned task-adaptive model, CLIPood proposes a new Beta moving average (BMA) to maintain a temporal ensemble according to Beta distribution. Experiments on diverse datasets with different OOD scenarios show that CLIPood consistently outperforms existing generalization techniques.