arXiv reaDer
テキストから画像への合成のためのベクトル量子化拡散モデル
Vector Quantized Diffusion Model for Text-to-Image Synthesis
テキストから画像への生成のためのベクトル量子化拡散(VQ-Diffusion)モデルを提示します。この方法は、ベクトル量子化変分オートエンコーダー(VQ-VAE)に基づいており、その潜在空間は、最近開発されたノイズ除去拡散確率モデル(DDPM)の条件付きバリアントによってモデル化されます。この潜在空間法は、既存の方法による一方向のバイアスを排除するだけでなく、マスクと置換の拡散戦略を組み込んで蓄積を回避できるため、テキストから画像への生成タスクに最適であることがわかります。エラー。これは既存の方法では深刻な問題です。私たちの実験は、VQ-Diffusionが、同様の数のパラメーターを持つ従来の自己回帰(AR)モデルと比較した場合に、大幅に優れたテキストから画像への生成結果を生成することを示しています。以前のGANベースのテキストから画像への方法と比較して、VQ-Diffusionはより複雑なシーンを処理し、合成された画質を大幅に向上させることができます。最後に、我々の方法での画像生成計算は、再パラメータ化によって非常に効率的にできることを示します。従来のAR手法では、テキストから画像への生成時間は出力画像の解像度に比例して増加するため、通常のサイズの画像でもかなりの時間がかかります。 VQ-Diffusionを使用すると、品質と速度の間のより良いトレードオフを実現できます。私たちの実験では、再パラメータ化を使用したVQ-Diffusionモデルは、従来のAR手法よりも15倍高速でありながら、より優れた画質を実現していることが示されています。
We present the vector quantized diffusion (VQ-Diffusion) model for text-to-image generation. This method is based on a vector quantized variational autoencoder (VQ-VAE) whose latent space is modeled by a conditional variant of the recently developed Denoising Diffusion Probabilistic Model (DDPM). We find that this latent-space method is well-suited for text-to-image generation tasks because it not only eliminates the unidirectional bias with existing methods but also allows us to incorporate a mask-and-replace diffusion strategy to avoid the accumulation of errors, which is a serious problem with existing methods. Our experiments show that the VQ-Diffusion produces significantly better text-to-image generation results when compared with conventional autoregressive (AR) models with similar numbers of parameters. Compared with previous GAN-based text-to-image methods, our VQ-Diffusion can handle more complex scenes and improve the synthesized image quality by a large margin. Finally, we show that the image generation computation in our method can be made highly efficient by reparameterization. With traditional AR methods, the text-to-image generation time increases linearly with the output image resolution and hence is quite time consuming even for normal size images. The VQ-Diffusion allows us to achieve a better trade-off between quality and speed. Our experiments indicate that the VQ-Diffusion model with the reparameterization is fifteen times faster than traditional AR methods while achieving a better image quality.
updated: Mon Nov 29 2021 18:59:46 GMT+0000 (UTC)
published: Mon Nov 29 2021 18:59:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト