arXiv reaDer
3Dヒューマンメッシュ登録のためのローカル認識区分的変換フィールド
Locally Aware Piecewise Transformation Fields for 3D Human Mesh Registration
服を着た人間の点群をパラメトリック人間モデルに登録することは、コンピュータービジョンにおいて困難な作業です。従来のアプローチは、人間のポーズの正確な手動初期化と面倒な後処理を必要とする高度に設計されたパイプラインに依存することがよくあります。最近では、このプロセスを自動化することを期待して、学習ベースの方法が提案されています。ポーズの初期化は正確な登録の鍵であることがわかりますが、既存の方法では正確なポーズの初期化を提供できないことがよくあります。大きな障害の1つは、点群または人間の画像からの関節の回転の回帰が依然として非常に難しいことです。この目的のために、我々は、ポーズ空間内の任意のクエリポイントを静止ポーズ空間内の対応する位置にマッピングするために3D並進ベクトルを学習する一連の関数である新しい区分的変換フィールド(PTF)を提案します。 PTFをマルチクラス占有ネットワークと組み合わせて、服を着た人間のポーズ空間と標準空間の間の形状とポイントごとの対応を同時に予測することを学習する、新しい学習ベースのフレームワークを取得します。私たちの重要な洞察は、各クエリポイントの平行移動ベクトルは、ポイントに位置合わせされたローカル特徴を使用して効果的に推定できることです。その結果、推定された点の対応が与えられた最小二乗フィッティングを介して、骨ごとの剛体変換と関節回転を効率的に取得でき、ニューラルネットワークから関節回転を直接回帰するという困難なタスクを回避できます。さらに、提案されたPTFは、正規化された占有率の推定を容易にします。これにより、一般化機能が大幅に向上し、最先端のパラメータと比較して、パラメータの半分だけでより正確な表面再構成が実現します。定性的研究と定量的研究の両方で、パラメトリックモデルをネットワークによって初期化されたポーズに適合させると、特に極端なポーズの場合に、登録品質が大幅に向上することが示されています。
Registering point clouds of dressed humans to parametric human models is a challenging task in computer vision. Traditional approaches often rely on heavily engineered pipelines that require accurate manual initialization of human poses and tedious post-processing. More recently, learning-based methods are proposed in hope to automate this process. We observe that pose initialization is key to accurate registration but existing methods often fail to provide accurate pose initialization. One major obstacle is that, regressing joint rotations from point clouds or images of humans is still very challenging. To this end, we propose novel piecewise transformation fields (PTF), a set of functions that learn 3D translation vectors to map any query point in posed space to its correspond position in rest-pose space. We combine PTF with multi-class occupancy networks, obtaining a novel learning-based framework that learns to simultaneously predict shape and per-point correspondences between the posed space and the canonical space for clothed human. Our key insight is that the translation vector for each query point can be effectively estimated using the point-aligned local features; consequently, rigid per bone transformations and joint rotations can be obtained efficiently via a least-square fitting given the estimated point correspondences, circumventing the challenging task of directly regressing joint rotations from neural networks. Furthermore, the proposed PTF facilitate canonicalized occupancy estimation, which greatly improves generalization capability and results in more accurate surface reconstruction with only half of the parameters compared with the state-of-the-art. Both qualitative and quantitative studies show that fitting parametric models with poses initialized by our network results in much better registration quality, especially for extreme poses.
updated: Fri Apr 16 2021 15:16:09 GMT+0000 (UTC)
published: Fri Apr 16 2021 15:16:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト