arXiv reaDer
MCMCベースのエネルギーベースモデルの最尤学習の解剖学について
On the Anatomy of MCMC-Based Maximum Likelihood Learning of Energy-Based Models
 この研究では、教師なし最尤(ML)学習におけるマルコフ連鎖モンテカルロ(MCMC)サンプリングの効果を調査します。私たちの注意は、負のログ密度(またはエネルギー関数)がConvNetである非正規化確率密度のファミリーに制限されています。以前の研究でトレーニングを安定させるために使用された技術の多くは必要ないことがわかりました。 ConvNetポテンシャルを使用したML学習には、少数のハイパーパラメーターのみが必要であり、正則化は必要ありません。この最小限のフレームワークを使用して、MCMCサンプリングの実装のみに依存するさまざまなML学習結果を特定します。一方では、短期ランゲバンで現実的な画像をサンプリングできるエネルギーベースのモデルを簡単に訓練できることを示します。トレーニング中、MCMCサンプルのエネルギーが真の定常状態サンプルよりもはるかに高い場合でも、MLは効果的で安定しています。この洞察に基づいて、純粋にノイズ初期化されたMCMC、高品質の短期合成、およびCDやPCDなどの有益なMCMC初期化を使用したMLと同じ予算でMLメソッドを導入します。以前のモデルとは異なり、当社のエネルギーモデルは、トレーニング後にノイズ信号から現実的な高多様性サンプルを取得できます。一方、非収束MCMCで学習されたConvNetポテンシャルには有効な定常状態がなく、長時間のMCMCサンプルは観測画像と大きく異なるため、トレーニングデータの近似非正規化密度とは見なせません。 ConvNetの潜在能力を訓練して、現実的な画像よりも定常状態を学習することがはるかに難しいことを示します。私たちの知る限り、以前のすべてのモデルの長期MCMCサンプルは、短期サンプルのリアリズムを失います。ランジュバンノイズを正しく調整することにより、長期および定常状態のMCMCサンプルが現実的な画像である最初のConvNetポテンシャルをトレーニングします。
This study investigates the effects of Markov chain Monte Carlo (MCMC) sampling in unsupervised Maximum Likelihood (ML) learning. Our attention is restricted to the family of unnormalized probability densities for which the negative log density (or energy function) is a ConvNet. We find that many of the techniques used to stabilize training in previous studies are not necessary. ML learning with a ConvNet potential requires only a few hyper-parameters and no regularization. Using this minimal framework, we identify a variety of ML learning outcomes that depend solely on the implementation of MCMC sampling. On one hand, we show that it is easy to train an energy-based model which can sample realistic images with short-run Langevin. ML can be effective and stable even when MCMC samples have much higher energy than true steady-state samples throughout training. Based on this insight, we introduce an ML method with purely noise-initialized MCMC, high-quality short-run synthesis, and the same budget as ML with informative MCMC initialization such as CD or PCD. Unlike previous models, our energy model can obtain realistic high-diversity samples from a noise signal after training. On the other hand, ConvNet potentials learned with non-convergent MCMC do not have a valid steady-state and cannot be considered approximate unnormalized densities of the training data because long-run MCMC samples differ greatly from observed images. We show that it is much harder to train a ConvNet potential to learn a steady-state over realistic images. To our knowledge, long-run MCMC samples of all previous models lose the realism of short-run samples. With correct tuning of Langevin noise, we train the first ConvNet potentials for which long-run and steady-state MCMC samples are realistic images.
updated: Wed Nov 27 2019 20:16:29 GMT+0000 (UTC)
published: Fri Mar 29 2019 06:45:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト