人間のポーズ推定は、入力データ(画像、ビデオ、信号など)の人間の解剖学的キーポイントまたは身体部分を特定することを目的としています。これは、機械が人間の行動を洞察に基づいて理解できるようにするための重要なコンポーネントを形成し、コンピュータビジョンおよび関連分野で顕著な問題になっています。深層学習技術により、データから直接特徴表現を学習できるため、人間の姿勢推定のパフォーマンスの限界が大幅に高まります。本論文では、2D人間の姿勢推定法の最近の成果を享受し、包括的な調査を提示します。簡単に言うと、既存のアプローチは、ネットワークアーキテクチャの設計、ネットワークトレーニングの改良、および後処理の3つの方向に取り組んでいます。ネットワークアーキテクチャの設計では、人間の姿勢推定モデルのアーキテクチャを調べ、キーポイントの認識とローカリゼーションのためのより堅牢な機能を抽出します。ネットワークトレーニングの改良は、ニューラルネットワークのトレーニングを活用し、モデルの表現能力を向上させることを目的としています。後処理には、モデルにとらわれない研磨戦略がさらに組み込まれており、キーポイント検出のパフォーマンスが向上します。この調査には、方法論のフレームワーク、一般的なベンチマークデータセット、評価指標、パフォーマンスの比較など、200を超える研究貢献が含まれています。私たちは、人間の姿勢推定に関するより包括的で体系的なレビューを研究者に提供し、彼らが壮大なパノラマを取得し、将来の方向性をよりよく特定できるようにすることを目指しています。
Human pose estimation aims at localizing human anatomical keypoints or body parts in the input data (e.g., images, videos, or signals). It forms a crucial component in enabling machines to have an insightful understanding of the behaviors of humans, and has become a salient problem in computer vision and related fields. Deep learning techniques allow learning feature representations directly from the data, significantly pushing the performance boundary of human pose estimation. In this paper, we reap the recent achievements of 2D human pose estimation methods and present a comprehensive survey. Briefly, existing approaches put their efforts in three directions, namely network architecture design, network training refinement, and post processing. Network architecture design looks at the architecture of human pose estimation models, extracting more robust features for keypoint recognition and localization. Network training refinement tap into the training of neural networks and aims to improve the representational ability of models. Post processing further incorporates model-agnostic polishing strategies to improve the performance of keypoint detection. More than 200 research contributions are involved in this survey, covering methodological frameworks, common benchmark datasets, evaluation metrics, and performance comparisons. We seek to provide researchers with a more comprehensive and systematic review on human pose estimation, allowing them to acquire a grand panorama and better identify future directions.