arXiv reaDer
PyMAF-X: 単眼画像からの適切に位置合わせされた全身モデル回帰に向けて
PyMAF-X: Towards Well-aligned Full-body Model Regression from Monocular Images
単眼画像からパラメトリック全身モデルを回復するための回帰ベースのアプローチである PyMAF-X を紹介します。このタスクは非常に困難です。パラメトリックのわずかなずれが、推定されたメッシュと入力画像の間の顕著なずれにつながる可能性があるためです。さらに、パーツ固有の推定を全身モデルに統合する場合、既存のソリューションではアライメントが低下したり、不自然な手首のポーズが生成されたりする傾向があります。これらの問題に対処するために、適切に調整されたヒューマン メッシュの回復のために、回帰ネットワークで Pyramidal Mesh Alignment Feedback (PyMAF) ループを提案し、それを PyMAF-X として拡張して表現力豊かな全身モデルを回復します。 PyMAF の核となるアイデアは、機能ピラミッドを活用し、メッシュと画像のアライメント ステータスに基づいて、予測されたパラメーターを明示的に修正することです。具体的には、現在予測されているパラメーターが与えられると、それに応じてメッシュに沿った証拠がより細かい解像度の特徴から抽出され、パラメーター修正のためにフィードバックされます。配置の認識を強化するために、補助的な密な監視を使用してメッシュと画像の対応ガイダンスを提供し、空間配置の注意を導入して、ネットワークのグローバルなコンテキストを認識できるようにします。全身メッシュ回復のために PyMAF を拡張する場合、PyMAF-X で適応統合戦略が提案され、部分固有の推定の適切に調整されたパフォーマンスを維持しながら、自然な手首のポーズを生成します。私たちのアプローチの有効性は、体、手、顔、全身のメッシュ回復に関するいくつかのベンチマーク データセットで検証されており、PyMAF と PyMAF-X はメッシュと画像の位置合わせを効果的に改善し、新しい最先端の結果を達成しています。コードとビデオの結果を含むプロジェクト ページは、https://www.liuyebin.com/pymaf-x にあります。
We present PyMAF-X, a regression-based approach to recovering parametric full-body models from monocular images. This task is very challenging since minor parametric deviation may lead to noticeable misalignment between the estimated mesh and the input image. Moreover, when integrating part-specific estimations into the full-body model, existing solutions tend to either degrade the alignment or produce unnatural wrist poses. To address these issues, we propose a Pyramidal Mesh Alignment Feedback (PyMAF) loop in our regression network for well-aligned human mesh recovery and extend it as PyMAF-X for the recovery of expressive full-body models. The core idea of PyMAF is to leverage a feature pyramid and rectify the predicted parameters explicitly based on the mesh-image alignment status. Specifically, given the currently predicted parameters, mesh-aligned evidence will be extracted from finer-resolution features accordingly and fed back for parameter rectification. To enhance the alignment perception, an auxiliary dense supervision is employed to provide mesh-image correspondence guidance while spatial alignment attention is introduced to enable the awareness of the global contexts for our network. When extending PyMAF for full-body mesh recovery, an adaptive integration strategy is proposed in PyMAF-X to produce natural wrist poses while maintaining the well-aligned performance of the part-specific estimations. The efficacy of our approach is validated on several benchmark datasets for body, hand, face, and full-body mesh recovery, where PyMAF and PyMAF-X effectively improve the mesh-image alignment and achieve new state-of-the-art results. The project page with code and video results can be found at https://www.liuyebin.com/pymaf-x.
updated: Fri Apr 28 2023 02:33:10 GMT+0000 (UTC)
published: Wed Jul 13 2022 17:58:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト