大規模な画像生成のためのベクトル量子化変分オートエンコーダー(VQ-VAE)モデルの使用を検討します。このため、VQ-VAEで使用される自己回帰事前分布をスケーリングおよび拡張して、以前よりもはるかに高いコヒーレンスと忠実度の合成サンプルを生成します。単純なフィードフォワードエンコーダーおよびデコーダーネットワークを使用しているため、このモデルは、エンコードおよび/またはデコードの速度が重要なアプリケーションの魅力的な候補となります。さらに、VQ-VAEでは、圧縮された潜在空間でのみ自己回帰モデルをサンプリングする必要があります。これは、特に大きな画像の場合、ピクセル空間でサンプリングするよりも1桁高速です。 VQ-VAEのマルチスケール階層組織は、潜在コードよりも強力な事前情報で補強されており、ImageNetなどの多面的なデータセットの最先端の生成的敵対ネットワークに匹敵する品質のサンプルを生成できることを示しています。モードの崩壊や多様性の欠如など、GANの既知の欠点に苦しんでいます。
We explore the use of Vector Quantized Variational AutoEncoder (VQ-VAE) models for large scale image generation. To this end, we scale and enhance the autoregressive priors used in VQ-VAE to generate synthetic samples of much higher coherence and fidelity than possible before. We use simple feed-forward encoder and decoder networks, making our model an attractive candidate for applications where the encoding and/or decoding speed is critical. Additionally, VQ-VAE requires sampling an autoregressive model only in the compressed latent space, which is an order of magnitude faster than sampling in the pixel space, especially for large images. We demonstrate that a multi-scale hierarchical organization of VQ-VAE, augmented with powerful priors over the latent codes, is able to generate samples with quality that rivals that of state of the art Generative Adversarial Networks on multifaceted datasets such as ImageNet, while not suffering from GAN's known shortcomings such as mode collapse and lack of diversity.