arXiv reaDer
セマンティック画像合成のための対照学習を備えたエッジガイド付き GAN
Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis
挑戦的なセマンティック画像合成タスクのための新しい ECGAN を提案します。かなりの改善が達成されましたが、合成された画像の品質は、大きく未解決の 3 つの課題のため、満足のいくものにはほど遠いものです。 1) セマンティック ラベルは詳細な構造情報を提供しないため、局所的な詳細と構造を合成することが困難になります。 2) 畳み込み、ダウンサンプリング、正規化などの広く採用されている CNN 操作は、通常、空間解像度の損失を引き起こし、元の意味情報を完全に保持できず、意味的に一貫性のない結果につながります。 3) 既存のセマンティック イメージ合成方法は、単一の入力セマンティック レイアウトからローカル セマンティック情報をモデル化することに重点を置いています。ただし、複数の入力セマンティック レイアウトのグローバル セマンティック情報、つまり、異なる入力レイアウトにまたがるピクセル間のセマンティック相互関係は無視されます。 1)に取り組むために、提案された注意誘導エッジ転送モジュールを介して画像生成をガイドするためにさらに採用される中間表現としてエッジを使用することを提案します。エッジ情報は、畳み込みジェネレーターによって生成され、詳細な構造情報を導入します。 2) に取り組むために、セマンティック情報を保持するために、元のセマンティック レイアウトに従ってクラス依存のフィーチャ マップを選択的に強調表示する効果的なモジュールを設計します。 3) に取り組むために、対照学習の現在の方法に着想を得て、新しい対照学習方法を提案します。この方法は、同じセマンティック クラスに属するピクセル埋め込みを強制して、異なるクラスの画像コンテンツよりも類似した画像コンテンツを生成することを目的としています。そうすることで、複数の入力セマンティック レイアウトからラベル付きピクセルの構造を明示的に探索することで、より多くのセマンティック関係をキャプチャできます。 3 つの挑戦的なデータセットでの実験は、ECGAN が最先端の方法よりも大幅に優れた結果を達成することを示しています。
We propose a novel ECGAN for the challenging semantic image synthesis task. Although considerable improvement has been achieved, the quality of synthesized images is far from satisfactory due to three largely unresolved challenges. 1) The semantic labels do not provide detailed structural information, making it difficult to synthesize local details and structures. 2) The widely adopted CNN operations such as convolution, down-sampling, and normalization usually cause spatial resolution loss and thus cannot fully preserve the original semantic information, leading to semantically inconsistent results. 3) Existing semantic image synthesis methods focus on modeling local semantic information from a single input semantic layout. However, they ignore global semantic information of multiple input semantic layouts, i.e., semantic cross-relations between pixels across different input layouts. To tackle 1), we propose to use edge as an intermediate representation which is further adopted to guide image generation via a proposed attention guided edge transfer module. Edge information is produced by a convolutional generator and introduces detailed structure information. To tackle 2), we design an effective module to selectively highlight class-dependent feature maps according to the original semantic layout to preserve the semantic information. To tackle 3), inspired by current methods in contrastive learning, we propose a novel contrastive learning method, which aims to enforce pixel embeddings belonging to the same semantic class to generate more similar image content than those from different classes. Doing so can capture more semantic relations by explicitly exploring the structures of labeled pixels from multiple input semantic layouts. Experiments on three challenging datasets show that our ECGAN achieves significantly better results than state-of-the-art methods.
updated: Tue Mar 28 2023 00:15:58 GMT+0000 (UTC)
published: Tue Mar 31 2020 01:23:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト