arXiv reaDer
階層拡散オートエンコーダーともつれを解く画像操作
Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation
拡散モデルは、画像合成の優れた視覚的品質を実現しています。ただし、拡散モデルの潜在空間を解釈して操作する方法は、広く調査されていません。以前の作業拡散オートエンコーダーは、セマンティック表現をセマンティック潜在コードにエンコードしますが、これは詳細の豊富な情報と固有の機能階層を反映できません。これらの制限を軽減するために、拡散モデルの潜在空間に細粒度から抽象化および低レベルから高レベルの機能階層を活用する階層型拡散オートエンコーダー (HDAE) を提案します。 HDAE の階層的な潜在空間は、異なる抽象レベルのセマンティクスを本質的にエンコードし、より包括的なセマンティック表現を提供します。さらに、もつれを解く画像操作のための切り捨てられた機能ベースのアプローチを提案します。画像の再構成、スタイルの混合、制御可能な補間、詳細の保存ともつれの解消された画像操作、およびマルチモーダルのセマンティック画像合成に関する広範な実験とアプリケーションを使用して、提案されたアプローチの有効性を示します。
Diffusion models have attained impressive visual quality for image synthesis. However, how to interpret and manipulate the latent space of diffusion models has not been extensively explored. Prior work diffusion autoencoders encode the semantic representations into a semantic latent code, which fails to reflect the rich information of details and the intrinsic feature hierarchy. To mitigate those limitations, we propose Hierarchical Diffusion Autoencoders (HDAE) that exploit the fine-grained-to-abstract and lowlevel-to-high-level feature hierarchy for the latent space of diffusion models. The hierarchical latent space of HDAE inherently encodes different abstract levels of semantics and provides more comprehensive semantic representations. In addition, we propose a truncated-feature-based approach for disentangled image manipulation. We demonstrate the effectiveness of our proposed approach with extensive experiments and applications on image reconstruction, style mixing, controllable interpolation, detail-preserving and disentangled image manipulation, and multi-modal semantic image synthesis.
updated: Tue Apr 25 2023 17:11:34 GMT+0000 (UTC)
published: Mon Apr 24 2023 05:35:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト