ユーザーがスケッチやカラーストロークで画像を編集できるようにするインタラクティブなファッション画像操作は、アプリケーションの価値が高い興味深い研究課題です。既存の作品は、それを一般的な修復タスクとして扱うことが多く、ファッション画像のセマンティック構造情報を完全に活用していません。さらに、従来の畳み込み層と正規化層を直接利用して不完全な画像を復元し、スケッチと色の情報を洗い流します。本稿では、自由形式のスケッチとスパースカラーストロークによってファッション画像を操作できる、新しいファッション編集生成的敵対ネットワーク(FE-GAN)を提案します。 FE-GANは2つのモジュールで構成されています。1)スケッチと色を操作して人間の構文解析生成を制御することを学習する自由形式の構文解析ネットワーク。 2)人間の解析マップからのセマンティックガイダンスを使用して詳細なテクスチャをレンダリングする解析対応の修復ネットワーク。合成画像の品質を向上させるために、新しい注意正規化レイヤーが、修復ネットワークのデコーダーの複数のスケールでさらに適用されます。高解像度のファッション画像データセットに関する広範な実験により、提案された方法が画像操作に関する最先端の方法よりも大幅に優れていることが実証されています。
Interactive fashion image manipulation, which enables users to edit images with sketches and color strokes, is an interesting research problem with great application value. Existing works often treat it as a general inpainting task and do not fully leverage the semantic structural information in fashion images. Moreover, they directly utilize conventional convolution and normalization layers to restore the incomplete image, which tends to wash away the sketch and color information. In this paper, we propose a novel Fashion Editing Generative Adversarial Network (FE-GAN), which is capable of manipulating fashion images by free-form sketches and sparse color strokes. FE-GAN consists of two modules: 1) a free-form parsing network that learns to control the human parsing generation by manipulating sketch and color; 2) a parsing-aware inpainting network that renders detailed textures with semantic guidance from the human parsing map. A new attention normalization layer is further applied at multiple scales in the decoder of the inpainting network to enhance the quality of the synthesized image. Extensive experiments on high-resolution fashion image datasets demonstrate that the proposed method significantly outperforms the state-of-the-art methods on image manipulation.