人間の姿勢推定 (HPE) は、過去数十年にわたってコンピューター ビジョン コミュニティから大きな注目を集めてきました。さらに、HPE は、人間とコンピューターのインタラクション、スポーツ分析、画像やビデオによる人間の追跡など、さまざまな領域に適用されています。最近、深層学習ベースのアプローチは、HPE ベースのアプリケーションで最先端のパフォーマンスを示しています。ディープ ラーニング ベースのアプローチは HPE で目覚ましいパフォーマンスを達成しましたが、ディープ ラーニング ベースの HPE 手法の包括的なレビューは依然として文献に不足しています。この記事では、ビジョンベースの HPE における深層学習アプローチの最新かつ詳細な概要を提供します。これらの 2-D および 3-D HPE の方法とその応用を要約し、書誌計量学を通じた課題と研究傾向について議論し、将来の研究に対する洞察に満ちた推奨事項を提供します。この記事は、ディープラーニングベースの HPE の初心者向けの入門資料として、また上級研究者向けの補足資料として有意義な概要を提供します。
Human pose estimation (HPE) has attracted a significant amount of attention from the computer vision community in the past decades. Moreover, HPE has been applied to various domains, such as human-computer interaction, sports analysis, and human tracking via images and videos. Recently, deep learning-based approaches have shown state-of-the-art performance in HPE-based applications. Although deep learning-based approaches have achieved remarkable performance in HPE, a comprehensive review of deep learning-based HPE methods remains lacking in the literature. In this article, we provide an up-to-date and in-depth overview of the deep learning approaches in vision-based HPE. We summarize these methods of 2-D and 3-D HPE, and their applications, discuss the challenges and the research trends through bibliometrics, and provide insightful recommendations for future research. This article provides a meaningful overview as introductory material for beginners to deep learning-based HPE, as well as supplementary material for advanced researchers.