arXiv reaDer
M3D-VTON:単眼から3Dへの仮想試着ネットワーク
M3D-VTON: A Monocular-to-3D Virtual Try-On Network
仮想3D試着は、オンラインショッピングに直感的で現実的なビューを提供し、大きな潜在的な商業的価値をもたらします。ただし、既存の3D仮想試着方法は、主に注釈付きの3D人間の形と衣服のテンプレートに依存しているため、実際のシナリオでのアプリケーションの妨げになります。 2D仮想試着アプローチは、服を着た人間を操作するためのより高速な代替手段を提供しますが、豊かでリアルな3D表現を欠いています。この論文では、2Dと3Dの両方のアプローチのメリットに基づいて構築された新しい単眼から3Dへの仮想トライオンネットワーク(M3D-VTON)を提案します。 2D情報を効率的に統合し、2D表現を3Dに持ち上げるマッピングを学習することにより、ターゲットの衣服と人物の画像のみを入力として使用して、3D試着メッシュを再構築する最初の試みを行います。提案されたM3D-VTONには、次の3つのモジュールが含まれます。1)初期の全身深度マップを推定し、新しい2段階のワーピング手順によって2Dの衣服と人の位置合わせを実現する単眼予測モジュール(MPM)。 2)初期の体の深さを調整して、より詳細なプリーツと顔の特性を生成する深さ調整モジュール(DRM)。 3)反った衣服を対象外の身体部分と融合させて結果を洗練するテクスチャ融合モジュール(TFM)。また、高品質の合成された単眼から3Dへの仮想試着データセットを構築します。このデータセットでは、各人物の画像が前面と背面の深度マップに関連付けられています。広範な実験により、提案されたM3D-VTONは、特定の衣服を着た3D人体を魅力的な詳細で操作および再構築でき、他の3Dアプローチよりも効率的であることが実証されています。
Virtual 3D try-on can provide an intuitive and realistic view for online shopping and has a huge potential commercial value. However, existing 3D virtual try-on methods mainly rely on annotated 3D human shapes and garment templates, which hinders their applications in practical scenarios. 2D virtual try-on approaches provide a faster alternative to manipulate clothed humans, but lack the rich and realistic 3D representation. In this paper, we propose a novel Monocular-to-3D Virtual Try-On Network (M3D-VTON) that builds on the merits of both 2D and 3D approaches. By integrating 2D information efficiently and learning a mapping that lifts the 2D representation to 3D, we make the first attempt to reconstruct a 3D try-on mesh only taking the target clothing and a person image as inputs. The proposed M3D-VTON includes three modules: 1) The Monocular Prediction Module (MPM) that estimates an initial full-body depth map and accomplishes 2D clothes-person alignment through a novel two-stage warping procedure; 2) The Depth Refinement Module (DRM) that refines the initial body depth to produce more detailed pleat and face characteristics; 3) The Texture Fusion Module (TFM) that fuses the warped clothing with the non-target body part to refine the results. We also construct a high-quality synthesized Monocular-to-3D virtual try-on dataset, in which each person image is associated with a front and a back depth map. Extensive experiments demonstrate that the proposed M3D-VTON can manipulate and reconstruct the 3D human body wearing the given clothing with compelling details and is more efficient than other 3D approaches.
updated: Wed Aug 11 2021 10:05:17 GMT+0000 (UTC)
published: Wed Aug 11 2021 10:05:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト