教師なしドメイン適応 (UDA) は、ラベル付きデータを含むソース ドメインから取得した知識を、ラベルなしデータを含むターゲット ドメインに転送する際に非常に効果的であることが証明されています。ターゲット ドメインにはラベル付きデータが不足しており、未知のクラスが存在する可能性があるため、トレーニング段階でこれらのクラスを識別するための潜在的なソリューションとして、オープンセット ドメイン アダプテーション (ODA) が浮上しています。既存の ODA アプローチは、ソース ドメインとターゲット ドメイン間の分布の変化を解決することを目的としていますが、ほとんどの手法は、ソース ドメインでの ImageNet 事前トレーニング済みモデルをターゲット ドメインでの適応によって微調整します。 Contrastive Language-Image Pre-Training (CLIP) などの最近の視覚言語基礎モデル (VLFM) は、多くの配布変更に対して堅牢であるため、ODA のパフォーマンスを大幅に向上させるはずです。この研究では、ODA に人気のある VLFM である CLIP を採用する一般的な方法を検討します。 CLIP を使用したゼロショット予測のパフォーマンスを調査し、CLIP の出力で ODA モデルを支援するエントロピー最適化戦略を提案します。提案されたアプローチは、さまざまなベンチマークで最先端の結果を達成し、ODA 問題への対処におけるその有効性を実証しています。
Unsupervised domain adaptation (UDA) has proven to be very effective in transferring knowledge obtained from a source domain with labeled data to a target domain with unlabeled data. Owing to the lack of labeled data in the target domain and the possible presence of unknown classes, open-set domain adaptation (ODA) has emerged as a potential solution to identify these classes during the training phase. Although existing ODA approaches aim to solve the distribution shifts between the source and target domains, most methods fine-tuned ImageNet pre-trained models on the source domain with the adaptation on the target domain. Recent visual-language foundation models (VLFM), such as Contrastive Language-Image Pre-Training (CLIP), are robust to many distribution shifts and, therefore, should substantially improve the performance of ODA. In this work, we explore generic ways to adopt CLIP, a popular VLFM, for ODA. We investigate the performance of zero-shot prediction using CLIP, and then propose an entropy optimization strategy to assist the ODA models with the outputs of CLIP. The proposed approach achieves state-of-the-art results on various benchmarks, demonstrating its effectiveness in addressing the ODA problem.