3D人間のポーズの推定は、ルートボディの関節に関連する3Dポーズを推定するタスクとしてよく見られます。あるいは、カメラ座標での3D人間ポーズ推定方法を提案します。これにより、2D注釈付きデータと3Dポーズの効果的な組み合わせ、および単純なマルチビューの一般化が可能になります。そのために、この問題を、絶対深度予測とジョイント相対深度推定が解きほぐされたビュー錐台空間ポーズ推定としてキャストします。最終的な3D予測は、カメラの逆投影によってカメラ座標で取得されます。これに基づいて、単一の単眼トレーニング手順を必要とする、キャリブレーションされていない画像からのマルチビュー予測のためのコンセンサスベースの最適化アルゴリズムも提示します。私たちの方法は、トレーニングカメラの固有値に間接的に関連付けられていますが、固有のパラメーターが異なるカメラでは収束するため、スケールファクターまでのコヒーレントな推定が行われます。私たちの方法は、よく知られている3D人間のポーズのデータセットの最新技術を改善し、最も一般的なベンチマークで予測誤差を32%削減します。また、絶対ポーズ位置誤差の結果を報告し、平均して単眼推定で80〜mm、マルチビューで51〜mmを達成しました。
3D human pose estimation is frequently seen as the task of estimating 3D poses relative to the root body joint. Alternatively, we propose a 3D human pose estimation method in camera coordinates, which allows effective combination of 2D annotated data and 3D poses and a straightforward multi-view generalization. To that end, we cast the problem as a view frustum space pose estimation, where absolute depth prediction and joint relative depth estimations are disentangled. Final 3D predictions are obtained in camera coordinates by the inverse camera projection. Based on this, we also present a consensus-based optimization algorithm for multi-view predictions from uncalibrated images, which requires a single monocular training procedure. Although our method is indirectly tied to the training camera intrinsics, it still converges for cameras with different intrinsic parameters, resulting in coherent estimations up to a scale factor. Our method improves the state of the art on well known 3D human pose datasets, reducing the prediction error by 32% in the most common benchmark. We also reported our results in absolute pose position error, achieving 80~mm for monocular estimations and 51~mm for multi-view, on average.