人間中心の認識には、監視、自動運転、メタバースなど、幅広い産業用途を持つさまざまな視覚タスクが含まれます。用途の広い人間中心のダウンストリーム タスク用の一般的な事前トレーニング モデルを用意することが望ましいです。このホワイト ペーパーでは、ベンチマークと事前トレーニングの両方の方法の側面から、このパスに沿って前進します。具体的には、既存のデータセットに基づいて HumanBench を提案し、人の再識別、姿勢推定、人間の解析、歩行者属性認識、歩行者検出、そして群衆のカウント。人体の粗粒度と細粒度の両方の知識を学習するために、さまざまな粒度レベルで多様な知識を学習するための Projector Assisted Hierarchical pretraining method (PATH) をさらに提案します。 HumanBench での包括的な評価は、PATH が 17 のダウンストリーム データセットで新しい最先端の結果を達成し、他の 2 つのデータセットで同等の結果を達成することを示しています。コードは https://github.com/OpenGVLab/HumanBenchhttps://github.com/OpenGVLab/HumanBench で公開されます。
Human-centric perceptions include a variety of vision tasks, which have widespread industrial applications, including surveillance, autonomous driving, and the metaverse. It is desirable to have a general pretrain model for versatile human-centric downstream tasks. This paper forges ahead along this path from the aspects of both benchmark and pretraining methods. Specifically, we propose a HumanBench based on existing datasets to comprehensively evaluate on the common ground the generalization abilities of different pretraining methods on 19 datasets from 6 diverse downstream tasks, including person ReID, pose estimation, human parsing, pedestrian attribute recognition, pedestrian detection, and crowd counting. To learn both coarse-grained and fine-grained knowledge in human bodies, we further propose a Projector AssisTed Hierarchical pretraining method (PATH) to learn diverse knowledge at different granularity levels. Comprehensive evaluations on HumanBench show that our PATH achieves new state-of-the-art results on 17 downstream datasets and on-par results on the other 2 datasets. The code will be publicly at https://github.com/OpenGVLab/HumanBenchhttps://github.com/OpenGVLab/HumanBench.