Cycle-Consistent Inverse GAN for Text-to-Image Synthesis
この論文は、テキスト記述から画像を自動的に生成または操作するためのテキストから画像への合成のオープンリサーチタスクを調査します。一般的な方法では、主にテキストをGAN生成の条件として使用し、テキストガイド付き画像の生成および操作タスク用にさまざまなモデルをトレーニングします。この論文では、テキストから画像への生成とテキスト誘導画像操作タスクの両方のためのサイクルコンシステントインバースGAN(CI-GAN)の新しい統合フレームワークを提案します。具体的には、まずテキスト入力なしのGANモデルをトレーニングし、多様性と品質の高い画像を生成することを目指します。次に、GAN反転モデルを学習して画像をGAN潜在空間に変換し直し、各画像の反転潜在コードを取得します。ここで、サイクル整合性トレーニングを導入して、より堅牢で一貫性のある反転潜在コードを学習します。さらに、テキスト表現と潜在コードの間の類似性モデルを学習することにより、トレーニングされたGANモデルの潜在空間セマンティクスを明らかにします。テキストガイド付き最適化モジュールでは、反転された潜在コードを最適化することにより、目的のセマンティック属性を持つ画像を生成します。 Recipe1MおよびCUBデータセットに関する広範な実験により、提案されたフレームワークの有効性が検証されます。
This paper investigates an open research task of text-to-image synthesis for automatically generating or manipulating images from text descriptions. Prevailing methods mainly use the text as conditions for GAN generation, and train different models for the text-guided image generation and manipulation tasks. In this paper, we propose a novel unified framework of Cycle-consistent Inverse GAN (CI-GAN) for both text-to-image generation and text-guided image manipulation tasks. Specifically, we first train a GAN model without text input, aiming to generate images with high diversity and quality. Then we learn a GAN inversion model to convert the images back to the GAN latent space and obtain the inverted latent codes for each image, where we introduce the cycle-consistency training to learn more robust and consistent inverted latent codes. We further uncover the latent space semantics of the trained GAN model, by learning a similarity model between text representations and the latent codes. In the text-guided optimization module, we generate images with the desired semantic attributes by optimizing the inverted latent codes. Extensive experiments on the Recipe1M and CUB datasets validate the efficacy of our proposed framework.
updated: Tue Aug 03 2021 08:38:16 GMT+0000 (UTC)
published: Tue Aug 03 2021 08:38:16 GMT+0000 (UTC)
