arXiv reaDer
セマンティック画像合成のための対照学習を備えたエッジガイド付き GAN
Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis
挑戦的なセマンティック画像合成タスクのために、コントラスト学習(ECGAN)を備えた新しいエッジガイド付き生成敵対ネットワークを提案します。かなりの改善が達成されましたが、合成された画像の品質は、大きく未解決の 3 つの課題のため、満足のいくものにはほど遠いものです。 1) セマンティック ラベルは詳細な構造情報を提供しないため、局所的な詳細と構造を合成することが困難になります。 2) 畳み込み、ダウンサンプリング、正規化などの広く採用されている CNN 操作は、通常、空間解像度の損失を引き起こし、元の意味情報を完全に保持できず、意味的に一貫性のない結果 (小さなオブジェクトの欠落など) につながります。 3) 既存のセマンティック イメージ合成方法は、単一の入力セマンティック レイアウトから「ローカル」セマンティック情報をモデル化することに重点を置いています。ただし、複数の入力セマンティック レイアウトの「グローバルな」セマンティック情報、つまり、異なる入力レイアウトにまたがるピクセル間のセマンティック相互関係は無視されます。 1)に取り組むために、提案された注意誘導エッジ転送モジュールを介して画像生成をガイドするためにさらに採用される中間表現としてエッジを使用することを提案します。エッジ情報は、畳み込みジェネレーターによって生成され、詳細な構造情報を導入します。 2) に取り組むために、セマンティック情報を保持するために、元のセマンティック レイアウトに従ってクラス依存のフィーチャ マップを選択的に強調表示する効果的なモジュールを設計します。 3) に取り組むために、対照学習の現在の方法に着想を得て、新しい対照学習方法を提案します。この方法は、同じセマンティック クラスに属するピクセル埋め込みを強制して、異なるクラスの画像コンテンツよりも類似した画像コンテンツを生成することを目的としています。そうすることで、複数の入力セマンティック レイアウトからラベル付きピクセルの構造を明示的に探索することで、より多くのセマンティック関係をキャプチャできます。
We propose a novel edge guided generative adversarial network with contrastive learning (ECGAN) for the challenging semantic image synthesis task. Although considerable improvement has been achieved, the quality of synthesized images is far from satisfactory due to three largely unresolved challenges. 1) The semantic labels do not provide detailed structural information, making it difficult to synthesize local details and structures. 2) The widely adopted CNN operations such as convolution, down-sampling, and normalization usually cause spatial resolution loss and thus cannot fully preserve the original semantic information, leading to semantically inconsistent results (e.g., missing small objects). 3) Existing semantic image synthesis methods focus on modeling `local' semantic information from a single input semantic layout. However, they ignore `global' semantic information of multiple input semantic layouts, i.e., semantic cross-relations between pixels across different input layouts. To tackle 1), we propose to use edge as an intermediate representation which is further adopted to guide image generation via a proposed attention guided edge transfer module. Edge information is produced by a convolutional generator and introduces detailed structure information. To tackle 2), we design an effective module to selectively highlight class-dependent feature maps according to the original semantic layout to preserve the semantic information. To tackle 3), inspired by current methods in contrastive learning, we propose a novel contrastive learning method, which aims to enforce pixel embeddings belonging to the same semantic class to generate more similar image content than those from different classes. By doing so, it can capture more semantic relations by explicitly exploring the structures of labeled pixels from multiple input semantic layouts.
updated: Sun Nov 13 2022 06:58:26 GMT+0000 (UTC)
published: Tue Mar 31 2020 01:23:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト