テキストから画像への合成(T2I)は、テキストの説明と意味的に一致する写実的な画像を生成することを目的としています。既存の方法は通常、条件付き生成敵対的ネットワーク(GAN)に基づいて構築され、文の埋め込みを使用してノイズから画像を初期化し、次に、きめ細かい単語の埋め込みを繰り返し使用して機能を改良します。生成された画像を詳しく調べると、大きな制限が明らかになります。生成された画像が説明と全体的に一致していても、個々の画像領域や何かの一部は、「白い王冠」などの文中の単語を認識できないか、一致しないことがよくあります。この問題に対処するために、入力テキストから画像を合成するための新しいフレームワークSemantic-SpatialAwareGANを提案します。具体的には、(1)テキストを条件としたセマンティック適応変換を学習してテキストの特徴と画像の特徴を効果的に融合し、(2)弱く監視された方法でセマンティックマスクを学習する、シンプルで効果的なセマンティック空間認識ブロックを紹介します。変換を空間的にガイドするために、現在のテキストと画像の融合プロセスに依存します。挑戦的なCOCOおよびCUB鳥のデータセットに関する実験は、視覚的な忠実度と入力テキストの説明との整合性の両方に関して、最近の最先端のアプローチに対する私たちの方法の利点を示しています。コードはhttps://github.com/wtliao/text2imageで入手できます。
Text-to-image synthesis (T2I) aims to generate photo-realistic images which are semantically consistent with the text descriptions. Existing methods are usually built upon conditional generative adversarial networks (GANs) and initialize an image from noise with sentence embedding, and then refine the features with fine-grained word embedding iteratively. A close inspection of their generated images reveals a major limitation: even though the generated image holistically matches the description, individual image regions or parts of somethings are often not recognizable or consistent with words in the sentence, e.g. "a white crown". To address this problem, we propose a novel framework Semantic-Spatial Aware GAN for synthesizing images from input text. Concretely, we introduce a simple and effective Semantic-Spatial Aware block, which (1) learns semantic-adaptive transformation conditioned on text to effectively fuse text features and image features, and (2) learns a semantic mask in a weakly-supervised way that depends on the current text-image fusion process in order to guide the transformation spatially. Experiments on the challenging COCO and CUB bird datasets demonstrate the advantage of our method over the recent state-of-the-art approaches, regarding both visual fidelity and alignment with input text description. Code available at https://github.com/wtliao/text2image.