Multi-Person 3D Human Pose Estimation from Monocular Images
  単一の画像からの複数人の3D人間の姿勢推定は、特に3D注釈付きデータがないため、野外での設定では困難な問題です。 HG-RCNNを提案します。これは、複数人の3D人間の姿勢推定のためにHourglassアーキテクチャの利点も活用するMask-RCNNベースのネットワークです。最初にすべての関心領域(RoI)で2Dキーポイントを推定し、次に推定されたキーポイントを3Dに引き上げる2段階のアプローチが提示されます。最後に、推定された3Dポーズは、弱遠近投影の仮定と焦点距離とルート変換の共同最適化を使用して、カメラ座標に配置されます。その結果、複数人の3Dポーズデータセットを必要としない、複数人の3D人間のポーズ推定用のシンプルでモジュール式のネットワークが実現します。 HG-RCNNは、シンプルな定式化にも関わらず、MuPoTS-3Dで最先端の結果を達成すると同時に、カメラ座標系での3Dポーズを近似します。
Multi-person 3D human pose estimation from a single image is a challenging problem, especially for in-the-wild settings due to the lack of 3D annotated data. We propose HG-RCNN, a Mask-RCNN based network that also leverages the benefits of the Hourglass architecture for multi-person 3D Human Pose Estimation. A two-staged approach is presented that first estimates the 2D keypoints in every Region of Interest (RoI) and then lifts the estimated keypoints to 3D. Finally, the estimated 3D poses are placed in camera-coordinates using weak-perspective projection assumption and joint optimization of focal length and root translations. The result is a simple and modular network for multi-person 3D human pose estimation that does not require any multi-person 3D pose dataset. Despite its simple formulation, HG-RCNN achieves the state-of-the-art results on MuPoTS-3D while also approximating the 3D pose in the camera-coordinate system.
updated: Tue Sep 24 2019 12:55:56 GMT+0000 (UTC)
published: Tue Sep 24 2019 12:55:56 GMT+0000 (UTC)
