変分オートエンコーダー(VAE)は広く影響力のある深い生成モデルを表しますが、基礎となるエネルギー関数の多くの側面はよく理解されていません。特に、ガウスエンコーダー/デコーダーの仮定は、現実的なサンプルを生成する際のVAEの有効性を低下させると一般に考えられています。この点で、VAEの目的を厳密に分析し、この信念が実際に真実であるかどうかを区別します。次に、対応する洞察を活用して、追加のハイパーパラメーターや高感度のチューニングを必要としない単純なVAE拡張を開発します。定量的に、この提案は、元のVAEアーキテクチャの望ましい属性を保持しながら、さまざまなGANモデルと実際に競合する鮮明なサンプルと安定したFIDスコアを生成します。この作業の短縮版は、ICLR 2019の会議議事録に掲載されます(Dai and Wipf、2019)。モデルのコードはhttps://github.com/daib13/ TwoStageVAEで入手できます。
Although variational autoencoders (VAEs) represent a widely influential deep generative model, many aspects of the underlying energy function remain poorly understood. In particular, it is commonly believed that Gaussian encoder/decoder assumptions reduce the effectiveness of VAEs in generating realistic samples. In this regard, we rigorously analyze the VAE objective, differentiating situations where this belief is and is not actually true. We then leverage the corresponding insights to develop a simple VAE enhancement that requires no additional hyperparameters or sensitive tuning. Quantitatively, this proposal produces crisp samples and stable FID scores that are actually competitive with a variety of GAN models, all while retaining desirable attributes of the original VAE architecture. A shorter version of this work will appear in the ICLR 2019 conference proceedings (Dai and Wipf, 2019). The code for our model is available at https://github.com/daib13/ TwoStageVAE.