CLIP などの対照的な損失でトレーニングされた自己教師ありモデルは、ゼロショット分類設定で非常に強力であることが示されています。ただし、これらのモデルをゼロショット分類器として使用するには、ユーザーはテスト時に固定された一連のラベルに新しいキャプションを提供する必要があります。多くの場合、新しいクエリ キャプションがモデルのトレーニングに使用されたソース キャプションと互換性があるかどうかを知ることは困難または不可能です。ゼロショット分類タスクを外れ値検出問題として組み立てることでこれらの制限に対処し、特定のテストキャプションがいつ確実に使用されるかを評価するための適合予測手順を開発します。実際の医療の例では、提案されたコンフォーマル手順がゼロショット分類設定での CLIP スタイルモデルの信頼性を向上させることを示し、そのパフォーマンスに影響を与える可能性のある要因の経験的分析を提供します。
Self-supervised models trained with a contrastive loss such as CLIP have shown to be very powerful in zero-shot classification settings. However, to be used as a zero-shot classifier these models require the user to provide new captions over a fixed set of labels at test time. In many settings, it is hard or impossible to know if a new query caption is compatible with the source captions used to train the model. We address these limitations by framing the zero-shot classification task as an outlier detection problem and develop a conformal prediction procedure to assess when a given test caption may be reliably used. On a real-world medical example, we show that our proposed conformal procedure improves the reliability of CLIP-style models in the zero-shot classification setting, and we provide an empirical analysis of the factors that may affect its performance.