arXiv reaDer
拡散オートエンコーダ:意味のある解読可能な表現に向けて
Diffusion Autoencoders: Toward a Meaningful and Decodable Representation
拡散確率モデル(DPM)は、GANに匹敵する優れた品質の画像生成を実現しました。ただし、GANとは異なり、DPMは意味的な意味を欠き、他のタスクの有用な表現として機能できない潜在変数のセットを使用します。このホワイトペーパーでは、表現学習にDPMを使用する可能性を探り、自動エンコードを介して入力画像の意味のあるデコード可能な表現を抽出しようとしています。私たちの重要なアイデアは、高レベルのセマンティクスを発見するための学習可能なエンコーダーと、残りの確率的変動をモデル化するためのデコーダーとしてDPMを使用することです。私たちの方法では、任意の画像を2つの部分からなる潜在コードにエンコードできます。最初の部分は意味的に意味があり線形であり、2番目の部分は確率的詳細をキャプチャしてほぼ正確な再構成を可能にします。この機能により、実際の画像での属性操作など、現在GANベースの方法を失敗させている困難なアプリケーションが可能になります。また、この2レベルのエンコーディングにより、ノイズ除去の効率が向上し、数ショットの条件付きサンプリングを含むさまざまなダウンストリームタスクが自然に容易になることも示しています。
Diffusion probabilistic models (DPMs) have achieved remarkable quality in image generation that rivals GANs'. But unlike GANs, DPMs use a set of latent variables that lack semantic meaning and cannot serve as a useful representation for other tasks. This paper explores the possibility of using DPMs for representation learning and seeks to extract a meaningful and decodable representation of an input image via autoencoding. Our key idea is to use a learnable encoder for discovering the high-level semantics, and a DPM as the decoder for modeling the remaining stochastic variations. Our method can encode any image into a two-part latent code, where the first part is semantically meaningful and linear, and the second part captures stochastic details, allowing near-exact reconstruction. This capability enables challenging applications that currently foil GAN-based methods, such as attribute manipulation on real images. We also show that this two-level encoding improves denoising efficiency and naturally facil itates various downstream tasks including few-shot conditional sampling.
updated: Tue Nov 30 2021 18:24:04 GMT+0000 (UTC)
published: Tue Nov 30 2021 18:24:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト