Deep High-Resolution Representation Learning for Human Pose Estimation
これは人間ポーズ推定のための深層高解像度表現学習の公式pytorch実装である。本研究における我々の関心は、信頼性の高い高解像度表現の学習に焦点を当てた人間のポーズ推定問題である。既存の手法の多くは、高解像度から低解像度のネットワークによって生成された低解像度の表現から高解像度の表現を復元する。我々の提案するネットワークは、全過程を通じて高解像度表現を維持する。高解像度のサブネットワークを第一段階とし、高解像度から低解像度のサブネットワークを順次追加して段階を形成し、複数のサブネットワークを並列に接続する。高解像度から低解像度までの各表現が他の並列表現からの情報を何度も受け取るように、マルチスケールフュージョンを繰り返すことで、豊かな高解像度表現を得ることができる。その結果、予測されるキーポイントのヒートマップは、より正確で、より空間的に正確なものとなる可能性がある。我々は、COCO keypoint detection datasetとMPII Human Pose datasetという2つのベンチマークデータセットを用いた優れたポーズ推定結果を通じて、我々のネットワークの有効性を経験的に実証している。コードとモデルは で公開されている。
This is an official pytorch implementation of Deep High-Resolution Representation Learning for Human Pose Estimation. In this work, we are interested in the human pose estimation problem with a focus on learning reliable high-resolution representations. Most existing methods recover high-resolution representations from low-resolution representations produced by a high-to-low resolution network. Instead, our proposed network maintains high-resolution representations through the whole process. We start from a high-resolution subnetwork as the first stage, gradually add high-to-low resolution subnetworks one by one to form more stages, and connect the mutli-resolution subnetworks in parallel. We conduct repeated multi-scale fusions such that each of the high-to-low resolution representations receives information from other parallel representations over and over, leading to rich high-resolution representations. As a result, the predicted keypoint heatmap is potentially more accurate and spatially more precise. We empirically demonstrate the effectiveness of our network through the superior pose estimation results over two benchmark datasets: the COCO keypoint detection dataset and the MPII Human Pose dataset. The code and models have been publicly available at
updated: Mon Feb 25 2019 11:55:28 GMT+0000 (UTC)
published: Mon Feb 25 2019 11:55:28 GMT+0000 (UTC)
