既存の自己回帰モデルは、最初に画像再構成のために潜在空間内のコードブックを学習し、次に学習したコードブックに基づいて自己回帰的に画像生成を完了する 2 段階の生成パラダイムに従っています。しかし、既存のコードブック学習は、異なる知覚的重要性を区別せずに画像のすべての局所領域情報を単純にモデル化するため、学習されたコードブックに冗長性が生じ、重要な構造をモデル化する次の段階の自己回帰モデルの能力が制限されるだけでなく、トレーニングコストが高くつき、学習速度が遅くなります。生成速度。この研究では、古典的な画像符号化理論から重要度認識のアイデアを借用し、モデルをモデリングの冗長性から解放するためにマスク量子化 VAE (MQ-VAE) とスタックフォーマーで構成される新しい 2 段階のフレームワークを提案します。具体的には、MQ-VAE には、量子化前に冗長な領域特徴をマスクする適応マスク モジュールと、量子化後に元の画像を忠実に再構成するために元のグリッド画像特徴マップを回復する適応デマスク モジュールが組み込まれています。次に、Stackformer は、次のコードの組み合わせと特徴マップ内のその位置を予測する方法を学習します。さまざまな画像生成に関する包括的な実験により、その有効性と効率性が検証されます。コードは https://github.com/CrossmodalGroup/MaskedVectorQuantization でリリースされます。
Existing autoregressive models follow the two-stage generation paradigm that first learns a codebook in the latent space for image reconstruction and then completes the image generation autoregressively based on the learned codebook. However, existing codebook learning simply models all local region information of images without distinguishing their different perceptual importance, which brings redundancy in the learned codebook that not only limits the next stage's autoregressive model's ability to model important structure but also results in high training cost and slow generation speed. In this study, we borrow the idea of importance perception from classical image coding theory and propose a novel two-stage framework, which consists of Masked Quantization VAE (MQ-VAE) and Stackformer, to relieve the model from modeling redundancy. Specifically, MQ-VAE incorporates an adaptive mask module for masking redundant region features before quantization and an adaptive de-mask module for recovering the original grid image feature map to faithfully reconstruct the original images after quantization. Then, Stackformer learns to predict the combination of the next code and its position in the feature map. Comprehensive experiments on various image generation validate our effectiveness and efficiency. Code will be released at https://github.com/CrossmodalGroup/MaskedVectorQuantization.