最近、Vector Quantized AutoRegressive (VQ-AR) モデルは、潜在空間の左上から右下までの個別の画像トークンを均等に予測することにより、テキストから画像への合成において顕著な結果を示しました。単純な生成プロセスは驚くほどうまく機能しますが、これが画像を生成する最良の方法ですか?たとえば、人間が作成したものは、画像の輪郭から細かさにこだわる傾向がありますが、VQ-AR モデル自体は、画像パッチの相対的な重要性を考慮していません。この論文では、忠実度の高いテキストから画像への生成のための進歩的なモデルを提示します。提案された方法は、既存のコンテキストに基づいて粗いものから細かいものまで新しい画像トークンを並行して作成することによって有効になり、この手順は、画像シーケンスが完了するまで、提案されたエラー修正メカニズムで再帰的に適用されます。結果として生じる粗いものから細かいものへの階層により、画像生成プロセスが直感的で解釈可能になります。 MS COCO ベンチマークでの広範な実験は、プログレッシブ モデルが、さまざまなカテゴリと側面にわたる FID スコアの以前の VQ-AR 法と比較して、大幅に優れた結果を生み出すことを示しています。さらに、各ステップでの並列生成の設計により、13 倍以上の推論高速化が可能になりますが、パフォーマンスはわずかに低下します。
Recently, Vector Quantized AutoRegressive (VQ-AR) models have shown remarkable results in text-to-image synthesis by equally predicting discrete image tokens from the top left to bottom right in the latent space. Although the simple generative process surprisingly works well, is this the best way to generate the image? For instance, human creation is more inclined to the outline-to-fine of an image, while VQ-AR models themselves do not consider any relative importance of image patches. In this paper, we present a progressive model for high-fidelity text-to-image generation. The proposed method takes effect by creating new image tokens from coarse to fine based on the existing context in a parallel manner, and this procedure is recursively applied with the proposed error revision mechanism until an image sequence is completed. The resulting coarse-to-fine hierarchy makes the image generation process intuitive and interpretable. Extensive experiments in MS COCO benchmark demonstrate that the progressive model produces significantly better results compared with the previous VQ-AR method in FID score across a wide variety of categories and aspects. Moreover, the design of parallel generation in each step allows more than ×13 inference acceleration with slight performance loss.