arXiv reaDer
詳細補充ネットワークによるきめの細かい人間のポーズ転送に向けて
Towards Fine-grained Human Pose Transfer with Detail Replenishing Network
 ヒューマンポーズ転送(HPT)は、ファッションデザイン、メディア制作、オンライン広告、バーチャルリアリティに大きな可能性を秘めた新たな研究テーマです。これらのアプリケーションでは、製品の品質とユーザーエンゲージメントにとって、きめ細かい外観の詳細の視覚的なリアリズムが重要です。ただし、既存のHPTメソッドは、3つの基本的な問題に悩まされることがよくあります。詳細の欠落、コンテンツのあいまいさ、スタイルの不整合が原因で、生成される画像の視覚的な品質と写実性が大幅に低下します。現実世界のアプリケーションを目指して、セマンティックの忠実度と詳細な補充に重点を置いて、ファイングレインヒューマンポーズ転送(FHPT)と呼ばれる、より挑戦的で実用的なHPT設定を開発します。具体的には、既存の方法の潜在的な設計上の欠陥を例示的な例を介して分析し、コンテンツの合成と機能の転送のアイデアを相互に導かれた方法で組み合わせて、コアFHPT方法論を確立します。その後、提案された方法論を詳細補充ネットワーク(DRN)と対応する大まかなモデルのトレーニングスキームで実証します。さらに、セマンティック分析、構造検出、知覚品質評価を含む包括的な方法でFHPTの課題に対処するために、きめ細かい評価プロトコルの完全なスイートを構築します。 DeepFashionベンチマークデータセットでの広範な実験により、最先端の作業に対する提案されたベンチマークの威力が検証され、トップ10の検索リコールで12%-14%の増加、5%高い共同ローカリゼーション精度、および40%近くの増加顔の同一性の保存。さらに、評価結果は主題に対するさらなる洞察を提供し、それはこの方向に沿って多くの有望な将来の作品を刺激する可能性があります。
Human pose transfer (HPT) is an emerging research topic with huge potential in fashion design, media production, online advertising and virtual reality. For these applications, the visual realism of fine-grained appearance details is crucial for production quality and user engagement. However, existing HPT methods often suffer from three fundamental issues: detail deficiency, content ambiguity and style inconsistency, which severely degrade the visual quality and realism of generated images. Aiming towards real-world applications, we develop a more challenging yet practical HPT setting, termed as Fine-grained Human Pose Transfer (FHPT), with a higher focus on semantic fidelity and detail replenishment. Concretely, we analyze the potential design flaws of existing methods via an illustrative example, and establish the core FHPT methodology by combing the idea of content synthesis and feature transfer together in a mutually-guided fashion. Thereafter, we substantiate the proposed methodology with a Detail Replenishing Network (DRN) and a corresponding coarse-to-fine model training scheme. Moreover, we build up a complete suite of fine-grained evaluation protocols to address the challenges of FHPT in a comprehensive manner, including semantic analysis, structural detection and perceptual quality assessment. Extensive experiments on the DeepFashion benchmark dataset have verified the power of proposed benchmark against start-of-the-art works, with 12%-14% gain on top-10 retrieval recall, 5% higher joint localization accuracy, and near 40% gain on face identity preservation. Moreover, the evaluation results offer further insights to the subject matter, which could inspire many promising future works along this direction.
updated: Fri May 07 2021 04:39:39 GMT+0000 (UTC)
published: Tue May 26 2020 03:05:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト