ドメイン適応はコンピューター ビジョンで広く調査されていますが、トレーニング時にターゲット イメージにアクセスする必要があり、まれな条件では扱いにくい場合があります。この論文では、ターゲットドメインの単一の一般的なテキスト記述、つまりプロンプトのみを使用して、ソースドメインでトレーニングされたモデルを適応させる「プロンプト主導のゼロショットドメイン適応」のタスクを提案します。まず、事前トレーニング済みの対照的な視覚言語モデル (CLIP) を活用して、ソース機能のアフィン変換を最適化し、コンテンツとセマンティクスを維持しながら、ターゲット テキストの埋め込みに向けて誘導します。次に、拡張機能を使用してセマンティック セグメンテーションのゼロ ショット ドメイン適応を実行できることを示します。実験は、私たちの方法が手元のダウンストリームタスクのいくつかのデータセットでCLIPベースのスタイル転送ベースラインよりも大幅に優れていることを示しています.私たちの迅速なアプローチは、一部のデータセットではワンショットの教師なしドメイン適応よりも優れており、他のデータセットでも同等の結果が得られます。コードは https://github.com/astra-vision/PODA で入手できます。
Domain adaptation has been vastly investigated in computer vision but still requires access to target images at train time, which might be intractable in some uncommon conditions. In this paper, we propose the task of `Prompt-driven Zero-shot Domain Adaptation', where we adapt a model trained on a source domain using only a single general textual description of the target domain, i.e., a prompt. First, we leverage a pretrained contrastive vision-language model (CLIP) to optimize affine transformations of source features, steering them towards target text embeddings, while preserving their content and semantics. Second, we show that augmented features can be used to perform zero-shot domain adaptation for semantic segmentation. Experiments demonstrate that our method significantly outperforms CLIP-based style transfer baselines on several datasets for the downstream task at hand. Our prompt-driven approach even outperforms one-shot unsupervised domain adaptation on some datasets, and gives comparable results on others. Our code is available at https://github.com/astra-vision/PODA.