深い生成モデルが大きな注目を集めていますが、既存の作品のほとんどは単峰性の生成タスク用に設計されています。この論文では、無条件の画像とテキストのペアを生成するための新しい方法を探ります。マルチモーダル画像テキスト表現のためのベクトル量子化法であるMXQ-VAEを提案します。 MXQ-VAEは、ペアの画像とテキストを入力として受け入れ、結合された量子化表現空間を学習するため、画像とテキストのペアを一連の統一されたインデックスに変換できます。次に、自己回帰生成モデルを使用して、画像とテキストの結合表現をモデル化し、無条件の画像とテキストのペアの生成を実行することもできます。広範な実験結果は、私たちのアプローチが意味的に一貫した画像とテキストのペアを効果的に生成し、画像とテキストの間の意味のある配置を強化することを示しています。
Though deep generative models have gained a lot of attention, most of the existing works are designed for the unimodal generation task. In this paper, we explore a new method for unconditional image-text pair generation. We propose MXQ-VAE, a vector quantization method for multimodal image-text representation. MXQ-VAE accepts a paired image and text as input, and learns a joint quantized representation space, so that the image-text pair can be converted to a sequence of unified indices. Then we can use autoregressive generative models to model the joint image-text representation, and even perform unconditional image-text pair generation. Extensive experimental results demonstrate that our approach effectively generates semantically consistent image-text pair and also enhances meaningful alignment between image and text.