テキストから画像への生成(T2I)モデルは、テキストの説明と意味的に一致する写実的な画像を生成することを目的としています。生成的敵対的ネットワーク(GAN)の最近の進歩に基づいて構築され、既存のT2Iモデルは大きな進歩を遂げました。ただし、生成された画像を詳しく調べると、2つの大きな制限が明らかになります。(1)条件バッチ正規化方法は、ローカルセマンティクスを無視して、画像の特徴マップ全体に等しく適用されます。 (2)テキストエンコーダーはトレーニング中に修正されます。これは、画像生成のためのより良いテキスト表現を学習するために、画像ジェネレーターと共同でトレーニングする必要があります。これらの制限に対処するために、テキストエンコーダーがより優れたテキスト情報を活用できるようにエンドツーエンドでトレーニングされる新しいフレームワークSemantic-Spatial AwareGANを提案します。具体的には、(1)テキストを条件とする意味適応変換を学習してテキストの特徴と画像の特徴を効果的に融合し、(2)依存する弱く監視された方法でマスクマップを学習する、新しい意味空間認識畳み込みネットワークを紹介します。変換を空間的にガイドするために、現在のテキストと画像の融合プロセスについて説明します。挑戦的なCOCOおよびCUB鳥のデータセットに関する実験は、視覚的な忠実度と入力テキストの説明との整合性の両方に関して、最近の最先端のアプローチに対する私たちの方法の利点を示しています。
A text to image generation (T2I) model aims to generate photo-realistic images which are semantically consistent with the text descriptions. Built upon the recent advances in generative adversarial networks (GANs), existing T2I models have made great progress. However, a close inspection of their generated images reveals two major limitations: (1) The condition batch normalization methods are applied on the whole image feature maps equally, ignoring the local semantics; (2) The text encoder is fixed during training, which should be trained with the image generator jointly to learn better text representations for image generation. To address these limitations, we propose a novel framework Semantic-Spatial Aware GAN, which is trained in an end-to-end fashion so that the text encoder can exploit better text information. Concretely, we introduce a novel Semantic-Spatial Aware Convolution Network, which (1) learns semantic-adaptive transformation conditioned on text to effectively fuse text features and image features, and (2) learns a mask map in a weakly-supervised way that depends on the current text-image fusion process in order to guide the transformation spatially. Experiments on the challenging COCO and CUB bird datasets demonstrate the advantage of our method over the recent state-of-the-art approaches, regarding both visual fidelity and alignment with input text description.