arXiv reaDer
セマンティック画像合成には敵対的な監視のみが必要です
You Only Need Adversarial Supervision for Semantic Image Synthesis
最近の成功にもかかわらず、セマンティック画像合成のGANモデルは、敵対的監視のみでトレーニングした場合、依然として画質が低下します。歴史的に、VGGベースの知覚損失を追加で採用することで、この問題を克服し、合成品質を大幅に向上させると同時に、セマンティック画像合成のGANモデルの進歩を制限してきました。この作業では、高品質の結果を達成するために敵対的監視のみを必要とする、斬新で単純化されたGANモデルを提案します。与えられたセマンティックラベルマップをトレーニングのグラウンドトゥルースとして直接使用して、ディスクリミネーターをセマンティックセグメンテーションネットワークとして再設計します。空間的および意味的に認識されたディスクリミネーターフィードバックを通じて、ディスクリミネーターとジェネレーターに強力な監視を提供することにより、入力ラベルマップとの整合性が高く、知覚損失を不必要に利用して、より忠実な画像を合成できます。さらに、ジェネレーターに注入された3Dノイズテンソルのグローバルおよびローカルサンプリングを通じて高品質のマルチモーダル画像合成を可能にし、完全または部分的な画像変更を可能にします。モデルによって合成された画像はより多様であり、実際の画像の色とテクスチャの分布により厳密に従うことを示します。敵対的な監視のみを使用して、さまざまなデータセット全体で最先端技術よりも平均6FIDおよび5mIoUポイントの改善を達成しています。
Despite their recent successes, GAN models for semantic image synthesis still suffer from poor image quality when trained with only adversarial supervision. Historically, additionally employing the VGG-based perceptual loss has helped to overcome this issue, significantly improving the synthesis quality, but at the same time limiting the progress of GAN models for semantic image synthesis. In this work, we propose a novel, simplified GAN model, which needs only adversarial supervision to achieve high quality results. We re-design the discriminator as a semantic segmentation network, directly using the given semantic label maps as the ground truth for training. By providing stronger supervision to the discriminator as well as to the generator through spatially- and semantically-aware discriminator feedback, we are able to synthesize images of higher fidelity with better alignment to their input label maps, making the use of the perceptual loss superfluous. Moreover, we enable high-quality multi-modal image synthesis through global and local sampling of a 3D noise tensor injected into the generator, which allows complete or partial image change. We show that images synthesized by our model are more diverse and follow the color and texture distributions of real images more closely. We achieve an average improvement of 6 FID and 5 mIoU points over the state of the art across different datasets using only adversarial supervision.
updated: Tue Dec 08 2020 23:00:48 GMT+0000 (UTC)
published: Tue Dec 08 2020 23:00:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト