One-shot Unsupervised Domain Adaptation with Personalized Diffusion Models
ラベル付けされたソース ドメインから、単一のラベル付けされていないデータムが利用可能なターゲット ドメインにセグメンテーション モデルを適応させることは、ドメイン適応における最も困難な問題の 1 つであり、ワンショットの教師なしドメイン適応 (OSUDA) としても知られています。以前の作業のほとんどは、ソース イメージがターゲット ドメインの外観を持つようにスタイル設定されるスタイル転送技術に依存することによって、問題に対処してきました。ターゲットの「テクスチャ」情報のみを転送するという一般的な概念から離れて、テキストから画像への拡散モデル (例: Stable Diffusion) を活用して、スタイルを忠実に描写するだけでなく、写真のようにリアルな画像を含む合成ターゲット データセットを生成します。ターゲットドメインの特徴ですが、さまざまなコンテキストでの斬新なシーンも特徴です。メソッド Data Augmentation with diffUsion Models (DATUM) のテキスト インターフェイスは、既存の OSUDA メソッドでは不可能な、単一のトレーニング画像の元の空間コンテキストを尊重しながら、画像の生成を目的のセマンティック コンセプトに導く可能性を与えてくれます。標準ベンチマークでの広範な実験により、当社の DATUM が最先端の OSUDA メソッドを最大 +7.1% 上回ることが示されています。実装は で入手できます
Adapting a segmentation model from a labeled source domain to a target domain, where a single unlabeled datum is available, is one the most challenging problems in domain adaptation and is otherwise known as one-shot unsupervised domain adaptation (OSUDA). Most of the prior works have addressed the problem by relying on style transfer techniques, where the source images are stylized to have the appearance of the target domain. Departing from the common notion of transferring only the target ``texture'' information, we leverage text-to-image diffusion models (e.g., Stable Diffusion) to generate a synthetic target dataset with photo-realistic images that not only faithfully depict the style of the target domain, but are also characterized by novel scenes in diverse contexts. The text interface in our method Data AugmenTation with diffUsion Models (DATUM) endows us with the possibility of guiding the generation of images towards desired semantic concepts while respecting the original spatial context of a single training image, which is not possible in existing OSUDA methods. Extensive experiments on standard benchmarks show that our DATUM surpasses the state-of-the-art OSUDA methods by up to +7.1%. The implementation is available at
updated: Fri Mar 31 2023 14:16:38 GMT+0000 (UTC)
published: Fri Mar 31 2023 14:16:38 GMT+0000 (UTC)
