本論文では、高品質の画像を効果的に合成し、自然言語の記述に従って画像生成の一部を制御できる、新規の制御可能なテキストから画像への生成的敵対ネットワーク(ControlGAN)を提案します。これを実現するために、さまざまな視覚的属性を解き、最も関連性の高い単語に対応するサブ領域の生成と操作にモデルが集中できるようにする、単語レベルの空間的およびチャネルごとの注意駆動型ジェネレーターを導入します。また、単語レベルの弁別器が提案されており、単語を画像領域と相関させることによりきめ細かい監視フィードバックを提供し、他のコンテンツの生成に影響を与えることなく特定の視覚属性を操作できる効果的なジェネレーターのトレーニングを促進します。さらに、画像生成に関与するランダム性を低減し、変更されたテキストに必要な特定の属性をジェネレーターが操作するように促すために、知覚的損失が採用されています。ベンチマークデータセットに関する広範な実験により、この方法が既存の最先端技術よりも優れており、自然言語記述を使用して合成画像を効果的に操作できることが実証されています。コードはhttps://github.com/mrlibw/ControlGANで入手できます。
In this paper, we propose a novel controllable text-to-image generative adversarial network (ControlGAN), which can effectively synthesise high-quality images and also control parts of the image generation according to natural language descriptions. To achieve this, we introduce a word-level spatial and channel-wise attention-driven generator that can disentangle different visual attributes, and allow the model to focus on generating and manipulating subregions corresponding to the most relevant words. Also, a word-level discriminator is proposed to provide fine-grained supervisory feedback by correlating words with image regions, facilitating training an effective generator which is able to manipulate specific visual attributes without affecting the generation of other content. Furthermore, perceptual loss is adopted to reduce the randomness involved in the image generation, and to encourage the generator to manipulate specific attributes required in the modified text. Extensive experiments on benchmark datasets demonstrate that our method outperforms existing state of the art, and is able to effectively manipulate synthetic images using natural language descriptions. Code is available at https://github.com/mrlibw/ControlGAN.