生成モデルの教師なし学習は、特に生成敵対ネットワーク(GAN)、変分オートエンコーダー、およびフローベースのモデルにより、特に大きな進歩を遂げています。 GANはサンプルの品質を劇的に改善しましたが、次の2つの欠点があります。(i)モードドロップ、つまり、列車データの完全なサポートをカバーしない、および(ii)保留データの尤度評価を許可しない。対照的に、尤度ベースのトレーニングは、モデルがトレインデータの完全なサポートをカバーするように奨励しますが、より低いサンプルを生成します。これらの相互の欠点は、原則として、ハイブリッドの敵対尤度の方法で生成潜在変数モデルをトレーニングすることで対処できます。ただし、一般的に行われたパラメトリックな仮定はそれらの間で矛盾を生じ、成功したハイブリッドモデルを自明ではないことを示します。解決策として、潜在変数デコーダーで深い可逆変換を使用することを提案します。このアプローチは、画像空間での尤度計算を可能にし、完全に可逆なモデルよりも効率的であり、敵対的トレーニングを最大限に活用できます。モデルが既存のハイブリッドモデルよりも大幅に改善されていることを示します。GANのようなサンプル、完全に敵対的なモデルと競合するISおよびFIDスコア、および尤度スコアの改善を提供します。
Unsupervised learning of generative models has seen tremendous progress over recent years, in particular due to generative adversarial networks (GANs), variational autoencoders, and flow-based models. GANs have dramatically improved sample quality, but suffer from two drawbacks: (i) they mode-drop, i.e., do not cover the full support of the train data, and (ii) they do not allow for likelihood evaluations on held-out data. In contrast, likelihood-based training encourages models to cover the full support of the train data, but yields poorer samples. These mutual shortcomings can in principle be addressed by training generative latent variable models in a hybrid adversarial-likelihood manner. However, we show that commonly made parametric assumptions create a conflict between them, making successful hybrid models non trivial. As a solution, we propose to use deep invertible transformations in the latent variable decoder. This approach allows for likelihood computations in image space, is more efficient than fully invertible models, and can take full advantage of adversarial training. We show that our model significantly improves over existing hybrid models: offering GAN-like samples, IS and FID scores that are competitive with fully adversarial models, and improved likelihood scores.