単一の画像からの人間のキーポイントの検出は、人物インスタンスのオクルージョン、ブラー、照明、スケールのばらつきのために非常に困難です。本稿では、コンテキスト情報がこれらの問題に対処する上で重要な役割を果たしていることを発見し、人間のキーポイント検出のためのプログレッシブコンテキストリファインメント(PCR)という新しい方法を提案します。まず、空間キー情報とチャネルコンテキスト情報を効率的に統合して、ハードキーポイントを見つけるための機能学習を支援できる、シンプルだが効果的なコンテキスト認識モジュール(CAM)を考案します。次に、ショートカットを使用して複数のCAMを順番に積み重ねてPCRモデルを構築し、マルチタスク学習を使用してコンテキスト情報と予測を徐々に改善します。さらに、前述のハードケース推論に対するPCRの可能性を最大化するために、ラベル付けされていないcocoデータセットと外部データセットを活用することで、ハードネガティブ人検出マイニング戦略と共同トレーニング戦略を提案します。 COCOキーポイント検出ベンチマークに関する広範な実験により、代表的な最先端の(SOTA)メソッドに対するPCRの優位性が実証されています。私たちの単一モデルは、2018 COCO Keypoint Detection Challengeの勝者と同等のパフォーマンスを達成します。最終的なアンサンブルモデルは、このベンチマークに新しいSOTAを設定します。
Human keypoint detection from a single image is very challenging due to occlusion, blur, illumination and scale variance of person instances. In this paper, we find that context information plays an important role in addressing these issues, and propose a novel method named progressive context refinement (PCR) for human keypoint detection. First, we devise a simple but effective context-aware module (CAM) that can efficiently integrate spatial and channel context information to aid feature learning for locating hard keypoints. Then, we construct the PCR model by stacking several CAMs sequentially with shortcuts and employ multi-task learning to progressively refine the context information and predictions. Besides, to maximize PCR's potential for the aforementioned hard case inference, we propose a hard-negative person detection mining strategy together with a joint-training strategy by exploiting the unlabeled coco dataset and external dataset. Extensive experiments on the COCO keypoint detection benchmark demonstrate the superiority of PCR over representative state-of-the-art (SOTA) methods. Our single model achieves comparable performance with the winner of the 2018 COCO Keypoint Detection Challenge. The final ensemble model sets a new SOTA on this benchmark.