Towards High Performance Human Keypoint Detection
 単一の画像からの人間のキーポイントの検出は、オクルージョン、ブラー、照明、スケールのばらつきのために非常に困難です。この論文では、効率的なネットワーク構造を考案し、3つの効果的なトレーニング戦略を提案し、4つの有用な後処理技術を活用することにより、3つの側面からこの問題に対処します。最初に、コンテキスト情報は、人体の構成と目に見えないキーポイントの推論に重要な役割を果たしていることがわかります。これに着想を得て、空間コンテキスト情報とチャネルコンテキスト情報を効率的に統合し、それらを徐々に改良するカスケードコンテキストミキサー(CCM)を提案します。次に、CCMの表現機能を最大化するために、豊富なラベルのないデータを活用して、ハードネガティブな人物検出マイニング戦略と共同トレーニング戦略を開発します。これにより、CCMは非常に多様なポーズから識別機能を学習できます。第三に、検出精度を向上させるためにキーポイント予測を後処理するためのいくつかのサブピクセル改良技術を提示します。 MS COCOキーポイント検出ベンチマークでの広範な実験により、代表的な最先端(SOTA)メソッドに対する提案メソッドの優位性が実証されています。私たちの単一モデルは、2018 COCO Keypoint Detection Challengeの勝者と同等のパフォーマンスを達成します。最終的なアンサンブルモデルは、このベンチマークに新しいSOTAを設定します。
Human keypoint detection from a single image is very challenging due to occlusion, blur, illumination and scale variance. In this paper, we address this problem from three aspects by devising an efficient network structure, proposing three effective training strategies, and exploiting four useful postprocessing techniques. First, we find that context information plays an important role in reasoning human body configuration and invisible keypoints. Inspired by this, we propose a cascaded context mixer (CCM), which efficiently integrates spatial and channel context information and progressively refines them. Then, to maximize CCM's representation capability, we develop a hard-negative person detection mining strategy and a joint-training strategy by exploiting abundant unlabeled data. It enables CCM to learn discriminative features from massive diverse poses. Third, we present several sub-pixel refinement techniques for postprocessing keypoint predictions to improve detection accuracy. Extensive experiments on the MS COCO keypoint detection benchmark demonstrate the superiority of the proposed method over representative state-of-the-art (SOTA) methods. Our single model achieves comparable performance with the winner of the 2018 COCO Keypoint Detection Challenge. The final ensemble model sets a new SOTA on this benchmark.
updated: Sun May 23 2021 02:23:25 GMT+0000 (UTC)
published: Mon Feb 03 2020 02:24:51 GMT+0000 (UTC)
