HEMlets Pose: Learning Part-Centric Heatmap Triplets for Accurate 3D Human Pose Estimation
  単一の画像から人間の3Dポーズを推定することは、困難な作業です。この作業では、中間状態-Part-Centric Heatmap Triplets(HEMlets)を導入して、検出された2Dジョイントを3D空間に持ち上げる不確実性に対処し、2D観測と3D解釈の間のギャップを短縮します。 HEMletは、3つのジョイントヒートマップを使用して、各骨格部位の末端ジョイントの相対的な深さ情報を表します。このアプローチでは、入力画像からHEMlestsを予測するために、畳み込みネットワーク(ConvNet)が最初にトレーニングされ、その後、ボリュームジョイントヒートマップ回帰が行われます。積分演算を活用して、ボリュームヒートマップからジョイント位置を抽出し、エンドツーエンドの学習を保証します。ネットワーク設計の単純さにもかかわらず、定量的比較により、最高品質の方法に比べて大幅なパフォーマンスの改善が示されています(Human3.6Mで20%向上)。提案された方法は、骨格の関節の弱く注釈付けされた相対的な深さ情報のみが利用可能な「野生の」画像によるトレーニングを自然にサポートします。これにより、屋外画像の定性的な比較によって検証されるように、モデルの一般化能力がさらに向上します。
Estimating 3D human pose from a single image is a challenging task. This work attempts to address the uncertainty of lifting the detected 2D joints to the 3D space by introducing an intermediate state - Part-Centric Heatmap Triplets (HEMlets), which shortens the gap between the 2D observation and the 3D interpretation. The HEMlets utilize three joint-heatmaps to represent the relative depth information of the end-joints for each skeletal body part. In our approach, a Convolutional Network (ConvNet) is first trained to predict HEMlests from the input image, followed by a volumetric joint-heatmap regression. We leverage on the integral operation to extract the joint locations from the volumetric heatmaps, guaranteeing end-to-end learning. Despite the simplicity of the network design, the quantitative comparisons show a significant performance improvement over the best-of-grade method (by 20% on Human3.6M). The proposed method naturally supports training with "in-the-wild" images, where only weakly-annotated relative depth information of skeletal joints is available. This further improves the generalization ability of our model, as validated by qualitative comparisons on outdoor images.
updated: Sat Oct 26 2019 09:29:54 GMT+0000 (UTC)
published: Sat Oct 26 2019 09:29:54 GMT+0000 (UTC)
