以前の 3D 人間の姿勢推定作業のほとんどは、トレーニング データから適切な 2D-3D マッピングを取得するネットワークの強力なメモリ機能に依存していました。運動中の人間の姿勢変形のモデリングを研究した研究はほとんどありません。この論文では、人間のポーズ変形の新しいモデリング方法を提案し、それに伴う拡散ベースのモーション事前設計を行います。動きからの非剛体構造の分野からインスピレーションを得て、私たちは、動いている 3D 人間の骨格を再構成するタスクを、3D 参照骨格の推定と、フレームごとの骨格変形の推定に分割します。混合時空間 NRSfMformer を使用して、2D 観測シーケンスから 3D 基準スケルトンと各フレームのスケルトン変形を同時に推定し、それらを合計して各フレームの姿勢を取得します。その後、拡散モデルに基づく損失項を使用して、パイプラインが事前の正しいモーション知識を確実に学習します。最後に、私たちは主流のデータセットで提案した方法を評価し、最先端の方法を上回る優れた結果を得ました。
Most of the previous 3D human pose estimation work relied on the powerful memory capability of the network to obtain suitable 2D-3D mappings from the training data. Few works have studied the modeling of human posture deformation in motion. In this paper, we propose a new modeling method for human pose deformations and design an accompanying diffusion-based motion prior. Inspired by the field of non-rigid structure-from-motion, we divide the task of reconstructing 3D human skeletons in motion into the estimation of a 3D reference skeleton, and a frame-by-frame skeleton deformation. A mixed spatial-temporal NRSfMformer is used to simultaneously estimate the 3D reference skeleton and the skeleton deformation of each frame from 2D observations sequence, and then sum them to obtain the pose of each frame. Subsequently, a loss term based on the diffusion model is used to ensure that the pipeline learns the correct prior motion knowledge. Finally, we have evaluated our proposed method on mainstream datasets and obtained superior results outperforming the state-of-the-art.