この研究では、カメラ座標系で2Dの人間のポーズを絶対的な3Dのポーズに持ち上げることができる新しいネットワーク(PoseLifter)を紹介します。提案されたネットワークは、ターゲット被験者の絶対3D位置を推定し、既存のポーズリフティング方法と比較して改善された3D相対ポーズ推定を生成します。 PoseLifterを2Dポーズ推定器とカスケード方式で使用すると、単一のRGB画像から3Dの人間のポーズを推定できます。この場合、2Dボディジョイントの実際のエラー分布で合成された現実的な2Dポーズを使用すると、PoseLifterのパフォーマンスが大幅に向上することが経験的に証明されています。提案された方法は、パブリックデータセットに適用され、最先端の2Dから3Dのポーズリフティングと3Dの人間のポーズ推定を実現します。
This study presents a new network (i.e., PoseLifter) that can lift a 2D human pose to an absolute 3D pose in a camera coordinate system. The proposed network estimates the absolute 3D location of a target subject and generates an improved 3D relative pose estimation compared with existing pose-lifting methods. Using the PoseLifter with a 2D pose estimator in a cascade fashion can estimate a 3D human pose from a single RGB image. In this case, we empirically prove that using realistic 2D poses synthesized with the real error distribution of 2D body joints considerably improves the performance of our PoseLifter. The proposed method is applied to public datasets to achieve state-of-the-art 2D-to-3D pose lifting and 3D human pose estimation.