arXiv reaDer
セマンティックに結合された VQ モデルを使用したセマンティック イメージ合成
Semantic Image Synthesis with Semantically Coupled VQ-Model
セマンティック イメージ合成では、何が生成されているかをガイドできるようにすることで、無条件のイメージ生成を制御できます。画像を自動エンコードするために事前にトレーニングされたベクトル量子化モデル (VQ モデル) から潜在空間を条件付きで合成します。個別に学習した条件付け潜在変数と画像潜在変数で自己回帰 Transformer をトレーニングする代わりに、条件付け潜在変数と画像潜在変数を一緒に学習すると、Transformer モデルのモデリング機能が大幅に向上することがわかりました。共同でトレーニングされた VQ モデルは、セマンティックとイメージの潜在の両方について、通常の VQ モデルと同様の再構成パフォーマンスを達成しますが、自動エンコード段階で 2 つのモダリティを結び付けることは、自己回帰モデリングのパフォーマンスを向上させるための重要な要素であることが証明されています。人気のあるセマンティック イメージ データセット ADE20k、Cityscapes、および COCO-Stuff で自己回帰モデルを使用して、モデルがセマンティック イメージ合成を改善することを示します。
Semantic image synthesis enables control over unconditional image generation by allowing guidance on what is being generated. We conditionally synthesize the latent space from a vector quantized model (VQ-model) pre-trained to autoencode images. Instead of training an autoregressive Transformer on separately learned conditioning latents and image latents, we find that jointly learning the conditioning and image latents significantly improves the modeling capabilities of the Transformer model. While our jointly trained VQ-model achieves a similar reconstruction performance to a vanilla VQ-model for both semantic and image latents, tying the two modalities at the autoencoding stage proves to be an important ingredient to improve autoregressive modeling performance. We show that our model improves semantic image synthesis using autoregressive models on popular semantic image datasets ADE20k, Cityscapes and COCO-Stuff.
updated: Tue Sep 06 2022 14:37:01 GMT+0000 (UTC)
published: Tue Sep 06 2022 14:37:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト