CLIP などの最近の大規模なビジョン言語モデルは、配布外 (OOD) の検出と汎化の顕著なパフォーマンスを示しています。ただし、ゼロショットの分布内 (ID) 精度は、下流のデータセットでは制限されることがよくあります。プロンプト学習などの最近の CLIP ベースの微調整手法により、OOD ラベルが利用可能な場合の ID 分類と OOD 一般化が大幅に改善されることが実証されました。それにもかかわらず、OOD ラベルのないセマンティックシフトに対してモデルが信頼できるかどうかは不明のままです。このペーパーでは、ギャップを埋めることを目的としており、微調整が数ショットの下流タスクの OOD 検出にどのような影響を与えるかを理解するための包括的な研究を紹介します。 OOD 検出をマルチモーダル概念マッチングとして枠組み化することで、微調整方法とさまざまな OOD スコアとの関係を確立します。私たちの結果は、CLIP ベースの微調整には OOD スコアの適切な選択が不可欠であることを示唆しています。特に、最大コンセプト マッチング (MCM) スコアは、一貫して有望なソリューションを提供します。また、即時学習により、ゼロショット対応のものよりも最先端の OOD 検出パフォーマンスが実証されることも示します。
Recent large vision-language models such as CLIP have shown remarkable out-of-distribution (OOD) detection and generalization performance. However, their zero-shot in-distribution (ID) accuracy is often limited for downstream datasets. Recent CLIP-based fine-tuning methods such as prompt learning have demonstrated significant improvements in ID classification and OOD generalization where OOD labels are available. Nonetheless, it remains unclear whether the model is reliable to semantic shifts without OOD labels. In this paper, we aim to bridge the gap and present a comprehensive study to understand how fine-tuning impact OOD detection for few-shot downstream tasks. By framing OOD detection as multi-modal concept matching, we establish a connection between fine-tuning methods and various OOD scores. Our results suggest that a proper choice of OOD scores is essential for CLIP-based fine-tuning. In particular, the maximum concept matching (MCM) score provides a promising solution consistently. We also show that prompt learning demonstrates the state-of-the-art OOD detection performance over the zero-shot counterpart.