arXiv reaDer
VITON-HD:ミスアライメントを意識した正規化による高解像度の仮想試着
VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization
画像ベースの仮想試着のタスクは、ターゲットの衣料品を人の対応する領域に転送することを目的としています。これは通常、アイテムを目的の身体部分に合わせ、歪んだアイテムを人と融合することによって対処されます。ますます多くの研究が行われているが、合成された画像の解像度は依然として低い(例えば、256x192)に制限されており、これはオンライン消費者を満足させることに対する重大な制限として機能する。制限はいくつかの課題に起因すると主張します。解像度が上がると、反った衣服と目的の衣服領域の間のずれた領域のアーティファクトが最終結果で目立つようになります。既存の方法で使用されているアーキテクチャでは、高品質のボディパーツを生成し、衣服の質感のシャープさを維持するパフォーマンスが低くなります。課題に対処するために、1024x768の仮想試着画像を正常に合成するVITON-HDと呼ばれる新しい仮想試着方法を提案します。具体的には、最初にセグメンテーションマップを作成して仮想試着合成をガイドし、次に対象の衣料品を特定の人の体に大まかに適合させます。次に、ALIgnment-Aware Segment(ALIAS)の正規化とALIASジェネレーターを提案して、不整合な領域を処理し、1024x768の入力の詳細を保持します。既存の方法との厳密な比較を通じて、VITON-HDが定性的および定量的に合成画質の点でベースラインを大幅に上回っていることを示しています。コードはhttps://github.com/shadow2496/VITON-HDで入手できます。
The task of image-based virtual try-on aims to transfer a target clothing item onto the corresponding region of a person, which is commonly tackled by fitting the item to the desired body part and fusing the warped item with the person. While an increasing number of studies have been conducted, the resolution of synthesized images is still limited to low (e.g., 256x192), which acts as the critical limitation against satisfying online consumers. We argue that the limitation stems from several challenges: as the resolution increases, the artifacts in the misaligned areas between the warped clothes and the desired clothing regions become noticeable in the final results; the architectures used in existing methods have low performance in generating high-quality body parts and maintaining the texture sharpness of the clothes. To address the challenges, we propose a novel virtual try-on method called VITON-HD that successfully synthesizes 1024x768 virtual try-on images. Specifically, we first prepare the segmentation map to guide our virtual try-on synthesis, and then roughly fit the target clothing item to a given person's body. Next, we propose ALIgnment-Aware Segment (ALIAS) normalization and ALIAS generator to handle the misaligned areas and preserve the details of 1024x768 inputs. Through rigorous comparison with existing methods, we demonstrate that VITON-HD highly surpasses the baselines in terms of synthesized image quality both qualitatively and quantitatively. Code is available at https://github.com/shadow2496/VITON-HD.
updated: Fri Sep 10 2021 12:27:15 GMT+0000 (UTC)
published: Wed Mar 31 2021 07:52:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト