再構成の質と、変分オートエンコーダー(VAE)モデルが学習に使用する証拠下限(ELBO)損失の事前の正則化との間にはトレードオフが存在します。事前目標と再構築目標のバランスを処理するための満足できるアプローチはほとんどありません。ほとんどの方法は、ヒューリスティックによってこの問題を処理します。この論文では、実数値データのガウス尤度p(x | z)のノイズ分散(多くの場合、固定値として設定)が自然にそのようなバランスを提供するように作用することを示します。 ELBO損失を最大化するようにこのノイズ分散を学習することにより、再構成エラーと事後条件の事前の制約との間の最適なトレードオフを自動的に取得します。この分散は、現在のモデルが観測データセットの最良の説明になるために必要なノイズレベルとして直感的に解釈できます。さらに、分散推論をより柔軟にすることにより、再構成または生成されたサンプルの不確実性推定器として便利に使用できます。ノイズ分散の最適化がVAE学習の重要なコンポーネントであることを実証し、MNIST、Fashion MNIST、およびCelebAデータセットのパフォーマンスを紹介します。私たちのアプローチは、データを表すために滑らかな潜在空間多様体を維持しながら、生成されたサンプルの品質を大幅に改善できることがわかりました。この方法は、最終的な生成モデルの不確実性の指標も提供します。
A trade-off exists between reconstruction quality and the prior regularisation in the Evidence Lower Bound (ELBO) loss that Variational Autoencoder (VAE) models use for learning. There are few satisfactory approaches to deal with a balance between the prior and reconstruction objective, with most methods dealing with this problem through heuristics. In this paper, we show that the noise variance (often set as a fixed value) in the Gaussian likelihood p(x|z) for real-valued data can naturally act to provide such a balance. By learning this noise variance so as to maximise the ELBO loss, we automatically obtain an optimal trade-off between the reconstruction error and the prior constraint on the posteriors. This variance can be interpreted intuitively as the necessary noise level for the current model to be the best explanation of the observed dataset. Further, by allowing the variance inference to be more flexible it can conveniently be used as an uncertainty estimator for reconstructed or generated samples. We demonstrate that optimising the noise variance is a crucial component of VAE learning, and showcase the performance on MNIST, Fashion MNIST and CelebA datasets. We find our approach can significantly improve the quality of generated samples whilst maintaining a smooth latent-space manifold to represent the data. The method also offers an indication of uncertainty in the final generative model.