arXiv reaDer
画像のエネルギーを構築する方法は?ノイズ除去オートエンコーダはエネルギーベースのモデルにすることができます
How to Construct Energy for Images? Denoising Autoencoder Can Be Energy Based Model
エネルギーベースのモデルは、データ サンプルの正規化されていない対数確率をパラメーター化しますが、「エネルギー」を構築する方法に関するガイダンスが不足しています。この論文では、画像エネルギーを「意味エネルギー」と「テクスチャエネルギー」に分解する Denoising-EBM を提案します。高レベルの表現をモデル化するために、DAE の潜在空間で「意味エネルギー」を定義し、ノイズ除去のピクセル レベルの再構成エラーを「テクスチャ エネルギー」として定義します。スコアベースのモデルに触発されたモデルは、最尤トレーニングにマルチスケールのノイズの多いサンプルを利用し、最適化中により大きな関数セットを探索するためにスカラーの代わりにベクトルを出力します。トレーニング後、セマンティクスは最初に高速 MCMC によって「セマンティック エネルギー」によって合成されます。次に、セマンティック イメージのピクセル レベルの改良が実行され、「テクスチャ エネルギー」に基づいて完全なサンプルが生成されます。最終的に、私たちのモデルは、画像生成においてほとんどの EBM よりも優れています。また、Denoising-EBM が分布外検出において EBM の中で最高のパフォーマンスを発揮することも示しています。
Energy-based models parameterize the unnormalized log-probability of data samples, but there is a lack of guidance on how to construct the "energy". In this paper, we propose a Denoising-EBM which decomposes the image energy into "semantic energy" and "texture energy". We define the "semantic energy" in the latent space of DAE to model the high-level representations, and define the pixel-level reconstruction error for denoising as "texture energy". Inspired by score-based model, our model utilizes multi-scale noisy samples for maximum-likelihood training and it outputs a vector instead of a scalar for exploring a larger set of functions during optimization. After training, the semantics are first synthesized by fast MCMC through "semantic energy", and then the pixel-level refinement of semantic image will be performed to generate perfect samples based on "texture energy". Ultimately, our model can outperform most EBMs in image generation. And we also demonstrate that Denoising-EBM has top performance among EBMs for out-of-distribution detection.
updated: Sun Mar 05 2023 05:35:55 GMT+0000 (UTC)
published: Sun Mar 05 2023 05:35:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト