人間の姿勢推定などのキーポイント推定タスクでは、ヒートマップベースの回帰が主なアプローチですが、顕著な欠点があります。ヒートマップは本質的に量子化誤差に悩まされ、生成と後処理に過剰な計算が必要になります。より効率的な解決策を見つけることを目的として、個々のキーポイントと空間的に関連するキーポイントのセット(つまりポーズ)を、高密度の単一ステージアンカーベースの検出フレームワーク内のオブジェクトとしてモデル化することを提案します。したがって、キーポイントとオブジェクトとしてのポーズに対して、メソッドKAPAO(「Ka-Pow」と発音)を呼び出します。 KAPAOは、人間のポーズとキーポイントオブジェクトを同時に検出し、検出を融合して両方のオブジェクト表現の長所を活用することにより、単一ステージの複数人の人間のポーズ推定の問題に適用されます。実験では、KAPAOは、ヒートマップの後処理に大きく影響される以前の方法よりも高速で正確であることがわかりました。精度と速度のトレードオフは、テスト時間の拡張を使用しない場合の実際の設定で特に有利です。ソースコード:https://github.com/wmcnally/kapao。
In keypoint estimation tasks such as human pose estimation, heatmap-based regression is the dominant approach despite possessing notable drawbacks: heatmaps intrinsically suffer from quantization error and require excessive computation to generate and post-process. Motivated to find a more efficient solution, we propose to model individual keypoints and sets of spatially related keypoints (i.e., poses) as objects within a dense single-stage anchor-based detection framework. Hence, we call our method KAPAO (pronounced "Ka-Pow"), for Keypoints And Poses As Objects. KAPAO is applied to the problem of single-stage multi-person human pose estimation by simultaneously detecting human pose and keypoint objects and fusing the detections to exploit the strengths of both object representations. In experiments, we observe that KAPAO is faster and more accurate than previous methods, which suffer greatly from heatmap post-processing. The accuracy-speed trade-off is especially favourable in the practical setting when not using test-time augmentation. Source code: https://github.com/wmcnally/kapao.