人間の解析は、画像またはビデオ内の人間を複数のピクセルレベルのセマンティック部分に分割することを目的としています。過去 10 年間で、コンピューター ビジョン コミュニティでの関心が大幅に高まり、ほんの数例を挙げると、セキュリティ監視からソーシャル メディア、視覚的特殊効果まで、幅広い実用的なアプリケーションで利用されています。ディープ ラーニング ベースのヒューマン パーシング ソリューションは目覚ましい成果を上げていますが、多くの重要な概念、既存の課題、潜在的な研究の方向性は依然として混乱を招きます。この調査では、それぞれのタスク設定、背景概念、関連する問題とアプリケーション、代表的な文献、およびデータセットを紹介することにより、単一の人間の解析、複数の人間の解析、およびビデオの人間の解析の 3 つの主要なサブタスクを包括的に確認します。また、ベンチマーク データセットでレビューされたメソッドの定量的なパフォーマンス比較も提示します。さらに、コミュニティの持続可能な開発を促進するために、トランスフォーマーベースのヒューマンパーシングフレームワークを提唱し、普遍的で簡潔で拡張可能なソリューションを通じてフォローアップ研究のための高性能ベースラインを提供します。最後に、この分野で未調査の一連の問題を指摘し、今後の研究の新しい方向性を提案します。また、この急速に進歩している分野での最近の開発を継続的に追跡するために、定期的に更新されるプロジェクト ページを提供しています: https://github.com/soeaver/awesome-human-parsing.
Human parsing aims to partition humans in image or video into multiple pixel-level semantic parts. In the last decade, it has gained significantly increased interest in the computer vision community and has been utilized in a broad range of practical applications, from security monitoring, to social media, to visual special effects, just to name a few. Although deep learning-based human parsing solutions have made remarkable achievements, many important concepts, existing challenges, and potential research directions are still confusing. In this survey, we comprehensively review three core sub-tasks: single human parsing, multiple human parsing, and video human parsing, by introducing their respective task settings, background concepts, relevant problems and applications, representative literature, and datasets. We also present quantitative performance comparisons of the reviewed methods on benchmark datasets. Additionally, to promote sustainable development of the community, we put forward a transformer-based human parsing framework, providing a high-performance baseline for follow-up research through universal, concise, and extensible solutions. Finally, we point out a set of under-investigated open issues in this field and suggest new directions for future study. We also provide a regularly updated project page, to continuously track recent developments in this fast-advancing field: https://github.com/soeaver/awesome-human-parsing.