arXiv reaDer
ArtFusion: デュアル条件付き潜在拡散モデルを使用した任意のスタイル転送
ArtFusion: Arbitrary Style Transfer using Dual Conditional Latent Diffusion Models
Arbitrary Style Transfer (AST) は、選択したアートワークからスタイルを採用して画像を変換することを目的としています。それにもかかわらず、多様で主観的なユーザーの好みに対応する必要性は、重大な課題を引き起こします。明確なコンテンツ構造を保持したいと考えるユーザーもいますが、より顕著な様式化を好むユーザーもいます。フィードフォワード AST 手法は進歩しているにもかかわらず、カスタマイズ性が限られているため、実用化が妨げられています。コンテンツとスタイルの柔軟なバランスを実現する新しいアプローチ、ArtFusion を提案します。偏った類似性損失に依存する従来の方法とは対照的に、ArtFusion は革新的なデュアル条件付き潜在拡散確率モデル (Dual-cLDM) を利用します。このアプローチにより、反復的なパターンが軽減され、ブラシ ストロークやジャンル固有の特徴などの微妙な芸術的側面が強化されます。さまざまな生成タスクにおける条件付き拡散確率モデル (cDM) の有望な結果にもかかわらず、スタイル転送への導入は、ペアのトレーニング データが必要なため困難です。 ArtFusion はこの問題をうまく解決し、より実用的で制御可能なスタイルを提供します。私たちのアプローチの重要な要素には、推論中に効果的なスタイルを維持しながら、モデルのトレーニング中にコンテンツとスタイルの両方に単一の画像を使用することが含まれます。 ArtFusion は、卓越した制御性と芸術的な詳細の忠実な表現において既存のアプローチを上回り、その優れたスタイル転送機能の証拠を提供します。さらに、ArtFusion で利用されている Dual-cLDM は、さまざまな複雑な複数条件の生成タスクの可能性を秘めており、その結果、私たちの研究の影響が大幅に広がります。
Arbitrary Style Transfer (AST) aims to transform images by adopting the style from any selected artwork. Nonetheless, the need to accommodate diverse and subjective user preferences poses a significant challenge. While some users wish to preserve distinct content structures, others might favor a more pronounced stylization. Despite advances in feed-forward AST methods, their limited customizability hinders their practical application. We propose a new approach, ArtFusion, which provides a flexible balance between content and style. In contrast to traditional methods reliant on biased similarity losses, ArtFusion utilizes our innovative Dual Conditional Latent Diffusion Probabilistic Models (Dual-cLDM). This approach mitigates repetitive patterns and enhances subtle artistic aspects like brush strokes and genre-specific features. Despite the promising results of conditional diffusion probabilistic models (cDM) in various generative tasks, their introduction to style transfer is challenging due to the requirement for paired training data. ArtFusion successfully navigates this issue, offering more practical and controllable stylization. A key element of our approach involves using a single image for both content and style during model training, all the while maintaining effective stylization during inference. ArtFusion outperforms existing approaches on outstanding controllability and faithful presentation of artistic details, providing evidence of its superior style transfer capabilities. Furthermore, the Dual-cLDM utilized in ArtFusion carries the potential for a variety of complex multi-condition generative tasks, thus greatly broadening the impact of our research.
updated: Thu Jun 15 2023 17:58:36 GMT+0000 (UTC)
published: Thu Jun 15 2023 17:58:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト