敵対的生成ネットワーク(GAN)における最先端のアプローチは、不対の画像データを用いて、ある画像領域から別の画像領域への写像関数を学習することができる。しかし、これらの方法は、しばしばアーティファクトを生成し、低レベルの情報のみを変換することができ、画像の高レベルの意味的な部分を転送することができない。これは,生成器が画像の中で最も識別力の高い意味部分を検出する能力を持っていないために,生成された画像が低品質なものになってしまうことが主な原因である.本論文では、このような問題を解決するために、余分なデータやモデルを使用せずに、最も識別性の高い意味部分を検出し、意味操作問題において不要な部分の変化を最小限に抑えることができる、新しいAttention-Guided Generative Adversarial Network (AGGAN)を提案する。AGGANのアテンション誘導生成器は、内蔵されたアテンション機構を介してアテンションマスクを生成し、入力画像とアテンションマスクを融合させて高品質な対象画像を得ることができる。さらに、アテンション領域のみを考慮した新しいアテンション誘導型判別器を提案する。提案したAGGANは、敵対損失、サイクル整合性損失、画素損失、アテンション損失を考慮したエンドツーエンド方式で学習される。定性的、定量的な結果から、我々のアプローチが既存のモデルよりもシャープで正確な画像を生成するのに有効であることが実証された。コードは https://github.com/Ha0Tang/AttentionGAN から入手可能。
The state-of-the-art approaches in Generative Adversarial Networks (GANs) are able to learn a mapping function from one image domain to another with unpaired image data. However, these methods often produce artifacts and can only be able to convert low-level information, but fail to transfer high-level semantic part of images. The reason is mainly that generators do not have the ability to detect the most discriminative semantic part of images, which thus makes the generated images with low-quality. To handle the limitation, in this paper we propose a novel Attention-Guided Generative Adversarial Network (AGGAN), which can detect the most discriminative semantic object and minimize changes of unwanted part for semantic manipulation problems without using extra data and models. The attention-guided generators in AGGAN are able to produce attention masks via a built-in attention mechanism, and then fuse the input image with the attention mask to obtain a target image with high-quality. Moreover, we propose a novel attention-guided discriminator which only considers attended regions. The proposed AGGAN is trained by an end-to-end fashion with an adversarial loss, cycle-consistency loss, pixel loss and attention loss. Both qualitative and quantitative results demonstrate that our approach is effective to generate sharper and more accurate images than existing models. The code is available at https://github.com/Ha0Tang/AttentionGAN.