本論文では、複雑な画像における複数人の3D人間の姿勢推定のための新しいシングルショット法を提案した。モデルは、画像内の人間の関節の位置を特定し、それらの3D座標を推定し、これらの予測を完全な人間の骨格にグループ化することを共同で学習します。提案された方法は、可変数の人々を扱い、3Dポーズを推定するために境界ボックスを必要としない。 Stacked Hourglass Networkとそのマルチスケール機能学習を活用および拡張して、複数の人の状況を管理します。したがって、強力な3D人間のポーズの定式化を利用して、強い咬合や作物の場合でも、いくつかの3Dの人間のポーズを完全に記述します。次に、連想埋め込み法を用いて、任意の人数の共同グループ化と人間の姿勢推定を行う。私たちのアプローチは、挑戦的なCMU Panopticの最先端技術や、MuPoTS-3Dデータセットの以前のシングルショット手法を大幅に上回っています。さらに、新しく提案されたJTAデータセットからの複雑な合成画像で良好な結果が得られます。
In this paper, we propose a new single shot method for multi-person 3D human pose estimation in complex images. The model jointly learns to locate the human joints in the image, to estimate their 3D coordinates and to group these predictions into full human skeletons. The proposed method deals with a variable number of people and does not need bounding boxes to estimate the 3D poses. It leverages and extends the Stacked Hourglass Network and its multi-scale feature learning to manage multi-person situations. Thus, we exploit a robust 3D human pose formulation to fully describe several 3D human poses even in case of strong occlusions or crops. Then, joint grouping and human pose estimation for an arbitrary number of people are performed using the associative embedding method. Our approach significantly outperforms the state of the art on the challenging CMU Panoptic and a previous single shot method on the MuPoTS-3D dataset. Furthermore, it leads to good results on the complex and synthetic images from the newly proposed JTA Dataset.