ボトムアップ型の人間ポーズ推定手法では、スケールのばらつきの問題から、小さい人物の正しいポーズを予測することは困難である。本論文では、高解像度の特徴ピラミッドを用いてスケールを考慮した表現を学習するためのボトムアップ型人間ポーズ推定手法であるHigherHRNetを提案する。本手法は、学習に多解像度スーパービジョンを、推論に多解像度アグリゲーションを用いることで、ボトムアップ型の多人数姿勢推定におけるスケール変動の問題を解決し、特に小さい人物の姿勢推定において、より正確にキーポイントを特定することが可能である。HigherHRNetの特徴ピラミッドは、HRNetからの特徴マップ出力と、アップサンプリングされた高解像度出力をトランスポーズされた畳み込みによって構成されている。その結果、COCO test-devでは、中サイズの人物の場合、従来のボトムアップ法を2.5%も上回るAPを達成しており、スケール変化への対応が有効であることが示された。さらに、COCO test-dev上では、精緻化などの後処理を行わずに、既存のボトムアップ手法を凌駕する最先端の結果(70.5% AP)を達成している。さらに、CrowdPoseテストにおいても、すべてのトップダウン手法を上回る67.6%のAPを達成しており、混雑したシーンでのロバスト性を示唆している。コードとモデルは https://github.com/HRNet/Higher-HRNet-Human-Pose-Estimation で公開されている。
Bottom-up human pose estimation methods have difficulties in predicting the correct pose for small persons due to challenges in scale variation. In this paper, we present HigherHRNet: a novel bottom-up human pose estimation method for learning scale-aware representations using high-resolution feature pyramids. Equipped with multi-resolution supervision for training and multi-resolution aggregation for inference, the proposed approach is able to solve the scale variation challenge in bottom-up multi-person pose estimation and localize keypoints more precisely, especially for small person. The feature pyramid in HigherHRNet consists of feature map outputs from HRNet and upsampled higher-resolution outputs through a transposed convolution. HigherHRNet outperforms the previous best bottom-up method by 2.5% AP for medium person on COCO test-dev, showing its effectiveness in handling scale variation. Furthermore, HigherHRNet achieves new state-of-the-art result on COCO test-dev (70.5% AP) without using refinement or other post-processing techniques, surpassing all existing bottom-up methods. HigherHRNet even surpasses all top-down methods on CrowdPose test (67.6% AP), suggesting its robustness in crowded scene. The code and models are available at https://github.com/HRNet/Higher-HRNet-Human-Pose-Estimation.