arXiv reaDer
テキストから画像への生成のためのクロスモーダル対照学習
Cross-Modal Contrastive Learning for Text-to-Image Generation
テキストから画像への合成システムの出力は、条件付けられたテキストの説明に対して高い意味的忠実度を備えた、一貫性のある、クリアで、写真のようにリアルなシーンである必要があります。当社のクロスモーダル対照生成的敵対的ネットワーク(XMC-GAN)は、画像とテキスト間の相互情報量を最大化することにより、この課題に対処します。これは、モダリティ間およびモダリティ内の対応をキャプチャする複数の対照的な損失を介して行われます。 XMC-GANは、強力なテキストと画像の対応を強制する注意自己変調ジェネレーターと、批評家および対照学習の機能エンコーダーとして機能する対照弁別器を使用します。 XMC-GANの出力の品質は、3つの難しいデータセットで示すように、以前のモデルからの大きなステップです。 MS-COCOでは、XMC-GANが最先端のFIDを24.70から9.33に改善するだけでなく、さらに重要なことに、人々はXMC-GANを画質で77.3、画像とテキストの配置で74.1だけ好みます。他の3つの最近のモデルと比較して。 XMC-GANはまた、挑戦的なLocalized Narrativesデータセット(より長く、より詳細な説明があります)に一般化し、最先端のFIDを48.70から14.12に改善します。最後に、挑戦的なOpen ImagesデータでXMC-GANをトレーニングおよび評価し、26.91の強力なベンチマークFIDスコアを確立します。
The output of text-to-image synthesis systems should be coherent, clear, photo-realistic scenes with high semantic fidelity to their conditioned text descriptions. Our Cross-Modal Contrastive Generative Adversarial Network (XMC-GAN) addresses this challenge by maximizing the mutual information between image and text. It does this via multiple contrastive losses which capture inter-modality and intra-modality correspondences. XMC-GAN uses an attentional self-modulation generator, which enforces strong text-image correspondence, and a contrastive discriminator, which acts as a critic as well as a feature encoder for contrastive learning. The quality of XMC-GAN's output is a major step up from previous models, as we show on three challenging datasets. On MS-COCO, not only does XMC-GAN improve state-of-the-art FID from 24.70 to 9.33, but--more importantly--people prefer XMC-GAN by 77.3 for image quality and 74.1 for image-text alignment, compared to three other recent models. XMC-GAN also generalizes to the challenging Localized Narratives dataset (which has longer, more detailed descriptions), improving state-of-the-art FID from 48.70 to 14.12. Lastly, we train and evaluate XMC-GAN on the challenging Open Images data, establishing a strong benchmark FID score of 26.91.
updated: Wed Jun 09 2021 06:55:21 GMT+0000 (UTC)
published: Tue Jan 12 2021 19:16:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト