既存の人間の姿勢推定方法は、複雑な学習目的のために、不正確な長距離回帰または高い計算コストに直面しています。この作業では、複合ローカリゼーションと呼ばれる人間の姿勢推定のための新しい深層学習フレームワークを提案し、複雑な学習目標を2つの単純なものに分割します。キーポイントのおおよその位置を見つけるためのスパースヒートマップと、最終的な正確な座標を取得するための2つの短距離オフセットマップです。フレームワークを実現するために、CLNet-ResNetとCLNet-Hourglassの2種類の複合ローカリゼーションネットワークを構築します。 Leeds Sports Poseデータセット、MPII Human Poseデータセット、COCOキーポイント検出データセットを含む3つのベンチマークデータセットでネットワークを評価します。実験結果は、CLNet-ResNet50がSimpleBaselineよりも1.14%優れており、GFLOPが約1/2であることを示しています。 CLNet-砂時計は、COCOで元の積み上げ砂時計を4.45%上回っています。
The existing human pose estimation methods are confronted with inaccurate long-distance regression or high computational cost due to the complex learning objectives. This work proposes a novel deep learning framework for human pose estimation called composite localization to divide the complex learning objective into two simpler ones: a sparse heatmap to find the keypoint's approximate location and two short-distance offsetmaps to obtain its final precise coordinates. To realize the framework, we construct two types of composite localization networks: CLNet-ResNet and CLNet-Hourglass. We evaluate the networks on three benchmark datasets, including the Leeds Sports Pose dataset, the MPII Human Pose dataset, and the COCO keypoints detection dataset. The experimental results show that our CLNet-ResNet50 outperforms SimpleBaseline by 1.14% with about 1/2 GFLOPs. Our CLNet-Hourglass outperforms the original stacked-hourglass by 4.45% on COCO.