画像ベースの仮想試着は、さまざまな人間のポーズの下で、対象の店内の服を参照者に合わせるのが困難です。これまでの作品は、固定されたポーズで目的の人に目的の服を移すときに、服の詳細(テクスチャ、ロゴ、パターンなど)を保持することに重点を置いていました。ただし、既存のメソッドをマルチポーズの仮想試着に拡張すると、既存のメソッドのパフォーマンスが大幅に低下しました。本論文では、エンドツーエンドのセマンティック予測ガイダンスマルチポーズ仮想試着ネットワーク(SPG-VTON)を提案します。これにより、任意のポーズで参照者に目的の衣服をフィットさせることができます。具体的には、SPG-VTONは3つのサブモジュールで構成されています。まず、セマンティック予測モジュール(SPM)が目的のセマンティックマップを生成します。予測されたセマンティックマップは、目的の衣服領域を特定し、粗い試着画像を生成するためのより豊富なガイダンスを提供します。次に、Clothes Warping Module(CWM)は、予測されたセマンティックマップと目的のポーズに従って、店内の衣服を目的の形状にワープします。具体的には、衣服の反りプロセスにおけるミスアライメントを軽減するために、導電性サイクルの一貫性の損失を導入します。第3に、試着合成モジュール(TSM)は、粗い結果とゆがんだ服を組み合わせて、最終的な仮想試着画像を生成し、目的の服の詳細を目的のポーズで保存します。さらに、顔の外観を洗練し、同時に最終的な仮想試着結果のアイデンティティを維持するために、顔のアイデンティティの喪失を導入します。最も大規模なマルチポーズデータセット(MPV)とDeepFashionデータセットで提案された方法を評価します。定性的および定量的実験は、SPG-VTONが最先端の方法よりも優れており、背景やアクセサリの変更(帽子やハンドバッグなど)を含むデータノイズに対して堅牢であり、実世界への優れたスケーラビリティを示していることを示しています。シナリオ。
Image-based virtual try-on is challenging in fitting a target in-shop clothes into a reference person under diverse human poses. Previous works focus on preserving clothing details ( e.g., texture, logos, patterns ) when transferring desired clothes onto a target person under a fixed pose. However, the performances of existing methods significantly dropped when extending existing methods to multi-pose virtual try-on. In this paper, we propose an end-to-end Semantic Prediction Guidance multi-pose Virtual Try-On Network (SPG-VTON), which could fit the desired clothing into a reference person under arbitrary poses. Concretely, SPG-VTON is composed of three sub-modules. First, a Semantic Prediction Module (SPM) generates the desired semantic map. The predicted semantic map provides more abundant guidance to locate the desired clothes region and produce a coarse try-on image. Second, a Clothes Warping Module (CWM) warps in-shop clothes to the desired shape according to the predicted semantic map and the desired pose. Specifically, we introduce a conductible cycle consistency loss to alleviate the misalignment in the clothes warping process. Third, a Try-on Synthesis Module (TSM) combines the coarse result and the warped clothes to generate the final virtual try-on image, preserving details of the desired clothes and under the desired pose. Besides, we introduce a face identity loss to refine the facial appearance and maintain the identity of the final virtual try-on result at the same time. We evaluate the proposed method on the most massive multi-pose dataset (MPV) and the DeepFashion dataset. The qualitative and quantitative experiments show that SPG-VTON is superior to the state-of-the-art methods and is robust to the data noise, including background and accessory changes, i.e., hats and handbags, showing good scalability to the real-world scenario.