arXiv reaDer
絡み合っていないスタイルとコンテンツ表現を使用した拡散ベースの画像変換
Diffusion-based Image Translation using Disentangled Style and Content Representation
セマンティックテキストまたは単一のターゲット画像によって導かれる拡散ベースの画像翻訳により、特定のドメインに限定されない柔軟なスタイル転送が可能になりました。残念ながら、拡散モデルの確率的性質により、逆拡散中に画像の元の内容を維持することはしばしば困難です。これに対処するために、ここでは、絡み合っていないスタイルとコンテンツ表現を使用した、新しい拡散ベースの教師なし画像変換方法を紹介します。具体的には、スプライシング ビジョン トランスフォーマーに触発されて、ViT モデルからマルチヘッド セルフ アテンション レイヤーの中間キーを抽出し、それらをコンテンツ保存損失として使用しました。次に、ノイズ除去されたサンプルとターゲット画像からの [CLS] 分類トークンを照合することにより、画像ガイド付きスタイル転送が実行されますが、テキスト駆動型スタイル転送には追加の CLIP 損失が使用されます。逆拡散中の意味変化をさらに加速するために、新しい意味発散損失とリサンプリング戦略も提案します。私たちの実験結果は、提案された方法が、テキストガイドと画像ガイドの両方の翻訳タスクで最先端のベースラインモデルよりも優れていることを示しています。
Diffusion-based image translation guided by semantic texts or a single target image has enabled flexible style transfer which is not limited to the specific domains. Unfortunately, due to the stochastic nature of diffusion models, it is often difficult to maintain the original content of the image during the reverse diffusion. To address this, here we present a novel diffusion-based unsupervised image translation method using disentangled style and content representation. Specifically, inspired by the splicing Vision Transformer, we extract intermediate keys of multihead self attention layer from ViT model and used them as the content preservation loss. Then, an image guided style transfer is performed by matching the [CLS] classification token from the denoised samples and target image, whereas additional CLIP loss is used for the text-driven style transfer. To further accelerate the semantic change during the reverse diffusion, we also propose a novel semantic divergence loss and resampling strategy. Our experimental results show that the proposed method outperforms state-of-the-art baseline models in both text-guided and image-guided translation tasks.
updated: Wed Feb 01 2023 10:27:16 GMT+0000 (UTC)
published: Fri Sep 30 2022 06:44:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト