arXiv reaDer
残差量子化を使用した自己回帰画像生成
Autoregressive Image Generation using Residual Quantization
高解像度画像の自己回帰(AR)モデリングの場合、ベクトル量子化(VQ)は、画像を一連の離散コードとして表します。短いシーケンス長は、ARモデルがコードの長距離相互作用を考慮するための計算コストを削減するために重要です。ただし、以前のVQでは、レート歪みのトレードオフの観点から、コードシーケンスを短縮し、忠実度の高い画像を一緒に生成することはできないと想定しています。本研究では、高解像度画像を効果的に生成するために、残差量子化VAE(RQ-VAE)とRQ-Transformerで構成される2段階のフレームワークを提案します。コードブックのサイズが固定されている場合、RQ-VAEは画像の特徴マップを正確に近似し、画像を個別のコードのスタックマップとして表すことができます。次に、RQ-Transformerは、コードの次のスタックを予測することにより、次の位置で量子化された特徴ベクトルを予測することを学習します。 RQ-VAEの正確な近似のおかげで、256×256の画像を特徴マップの8×8の解像度として表すことができ、RQ-Transformerは計算コストを効率的に削減できます。その結果、私たちのフレームワークは、無条件および条件付き画像生成のさまざまなベンチマークで既存のARモデルよりも優れています。また、私たちのアプローチは、高品質の画像を生成するために、以前のARモデルよりも大幅に高速なサンプリング速度を備えています。
For autoregressive (AR) modeling of high-resolution images, vector quantization (VQ) represents an image as a sequence of discrete codes. A short sequence length is important for an AR model to reduce its computational costs to consider long-range interactions of codes. However, we postulate that previous VQ cannot shorten the code sequence and generate high-fidelity images together in terms of the rate-distortion trade-off. In this study, we propose the two-stage framework, which consists of Residual-Quantized VAE (RQ-VAE) and RQ-Transformer, to effectively generate high-resolution images. Given a fixed codebook size, RQ-VAE can precisely approximate a feature map of an image and represent the image as a stacked map of discrete codes. Then, RQ-Transformer learns to predict the quantized feature vector at the next position by predicting the next stack of codes. Thanks to the precise approximation of RQ-VAE, we can represent a 256×256 image as 8×8 resolution of the feature map, and RQ-Transformer can efficiently reduce the computational costs. Consequently, our framework outperforms the existing AR models on various benchmarks of unconditional and conditional image generation. Our approach also has a significantly faster sampling speed than previous AR models to generate high-quality images.
updated: Thu Mar 03 2022 11:44:46 GMT+0000 (UTC)
published: Thu Mar 03 2022 11:44:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト