変分オートエンコーダー(VAE)の導入により、確率的潜在変数モデルは強力な生成モデルとして新たな注目を集めています。ただし、テストの尤度と生成されたサンプルの品質に関するパフォーマンスは、確率単位のない自己回帰モデルを上回っています。さらに、フローベースのモデルは、高次元のデータにうまく対応できる魅力的な代替手段であることが最近示されています。この論文では、確率変数の深い階層を効果的に利用し、複雑な共分散構造をモデル化できるVAEモデルを構築することにより、パフォーマンスのギャップを埋めます。スキップ接続生成モデルと双方向確率的推論パスによって形成された推論ネットワークによって特徴付けられる、双方向推論変分オートエンコーダー(BIVA)を紹介します。 BIVAが最先端のテスト尤度に達し、鮮明で一貫性のある自然な画像を生成し、潜在変数の階層を使用してデータ分布のさまざまな側面をキャプチャすることを示します。 BIVAは、最近の結果とは対照的に、異常検出に使用できることがわかります。これは、高レベルのセマンティックフィーチャを抽出できる潜在変数の階層に起因します。最後に、BIVAを半教師付き分類タスクに拡張し、生成的敵対ネットワークによる最先端の結果と同等に実行されることを示します。
With the introduction of the variational autoencoder (VAE), probabilistic latent variable models have received renewed attention as powerful generative models. However, their performance in terms of test likelihood and quality of generated samples has been surpassed by autoregressive models without stochastic units. Furthermore, flow-based models have recently been shown to be an attractive alternative that scales well to high-dimensional data. In this paper we close the performance gap by constructing VAE models that can effectively utilize a deep hierarchy of stochastic variables and model complex covariance structures. We introduce the Bidirectional-Inference Variational Autoencoder (BIVA), characterized by a skip-connected generative model and an inference network formed by a bidirectional stochastic inference path. We show that BIVA reaches state-of-the-art test likelihoods, generates sharp and coherent natural images, and uses the hierarchy of latent variables to capture different aspects of the data distribution. We observe that BIVA, in contrast to recent results, can be used for anomaly detection. We attribute this to the hierarchy of latent variables which is able to extract high-level semantic features. Finally, we extend BIVA to semi-supervised classification tasks and show that it performs comparably to state-of-the-art results by generative adversarial networks.