ドメイン適応は、コンピューター ビジョンで広く調査されていますが、トレーニング時にターゲット イメージにアクセスする必要があります。これは、特にロングテール サンプルの場合、一部の条件では扱いにくい場合があります。この論文では、ターゲットドメインの一般的なテキスト記述、つまりプロンプトのみを使用して、ソースドメインでトレーニングされたモデルを適応させる「プロンプト主導のゼロショットドメイン適応」のタスクを提案します。まず、事前トレーニング済みの対照的な視覚言語モデル (CLIP) を活用して、ソース機能のアフィン変換を最適化し、コンテンツとセマンティクスを維持しながら、ターゲット テキストの埋め込みに近づけます。次に、拡張機能を使用してセマンティック セグメンテーションのゼロ ショット ドメイン適応を実行できることを示します。実験は、私たちの方法が手元のダウンストリームタスクのいくつかのデータセットでCLIPベースのスタイル転送ベースラインよりも大幅に優れていることを示しています.私たちの迅速なアプローチは、一部のデータセットではワンショットの教師なしドメイン適応よりも優れており、他のデータセットでも同等の結果が得られます。コードは https://github.com/astra-vision/PODA で入手できます。
Domain adaptation has been vastly investigated in computer vision but still requires access to target images at train time, which might be intractable in some conditions, especially for long-tail samples. In this paper, we propose the task of `Prompt-driven Zero-shot Domain Adaptation', where we adapt a model trained on a source domain using only a general textual description of the target domain, i.e., a prompt. First, we leverage a pretrained contrastive vision-language model (CLIP) to optimize affine transformations of source features, bringing them closer to target text embeddings, while preserving their content and semantics. Second, we show that augmented features can be used to perform zero-shot domain adaptation for semantic segmentation. Experiments demonstrate that our method significantly outperforms CLIP-based style transfer baselines on several datasets for the downstream task at hand. Our prompt-driven approach even outperforms one-shot unsupervised domain adaptation on some datasets, and gives comparable results on others. The code is available at https://github.com/astra-vision/PODA.