人間の姿勢推定は、アクション認識や人間とコンピューターの相互作用などの視覚的理解タスクにとって重要です。この作業では、画像内の複数人の姿勢推定の問題に取り組むために、複数段階の高解像度ネットワーク(Multi-Stage HRNet)を提示します。具体的には、トップダウンパイプラインに従い、1人のポーズの推定中に高解像度の表現が維持されます。さらに、複数のステージネットワークとクロスステージ機能の集約が採用され、キーポイントの位置がさらに洗練されています。結果として得られるアプローチは、COCOデータセットで有望な結果を達成します。単一モデルの単一スケールのテスト構成は、公開されているトレーニングデータを使用して、test-devで77.1 APスコアを取得します。
Human pose estimation are of importance for visual understanding tasks such as action recognition and human-computer interaction. In this work, we present a Multiple Stage High-Resolution Network (Multi-Stage HRNet) to tackling the problem of multi-person pose estimation in images. Specifically, we follow the top-down pipelines and high-resolution representations are maintained during single-person pose estimation. In addition, multiple stage network and cross stage feature aggregation are adopted to further refine the keypoint position. The resulting approach achieves promising results in COCO datasets. Our single-model-single-scale test configuration obtains 77.1 AP score in test-dev using publicly available training data.