既存の頭部姿勢推定 (HPE) は主に、前頭頭が事前に検出された 1 人の人物に焦点を当てているため、複数の人物がいる実際の複雑なシナリオでの適用が制限されます。これらの単一の HPE メソッドは、特に顔の領域が見えない頭の場合、完全な視点にうまく一般化できない個別にトレーニングされた顔検出器に依存しているため、Multi-Person Head Pose Estimation (MPHPE) に対して脆弱で非効率的であると主張します。このホワイト ペーパーでは、フルレンジ MPHPE 問題に焦点を当て、DirectMHP という名前の直接的なエンド ツー エンドの単純なベースラインを提案します。フルレンジ MPHPE に適用可能なデータセットが不足しているため、まず、パブリック データセット AGORA および CMU Panoptic から頭部検出と頭部の向きのグラウンド トゥルース ラベルを抽出することにより、2 つのベンチマークを構築します。彼らは、多くの切り詰められた、閉塞された、小さくて不均一に照らされた人間の頭を持つためにかなり挑戦的です.次に、MPHPE問題に対処するために、マルチヘッドの位置と方向を共同回帰することにより、新しいエンドツーエンドのトレーニング可能な1ステージネットワークアーキテクチャを設計します。具体的には、ポーズを頭の補助属性と見なし、従来のオブジェクト予測の後に追加します。この柔軟な設計により、オイラー角などの任意のポーズ表現が受け入れられます。次に、機能を共有し、適切な複数の損失を利用して、これら 2 つのタスクを共同で最適化します。このようにして、私たちの方法は、頭部検出のパフォーマンスを維持しながら、HPE の精度を向上させるために、より多くの環境から暗黙のうちに恩恵を受けることができます。公開ベンチマークでの最先端の単一の HPE メソッドとの包括的な比較、および構築された MPHPE データセットでの優れたベースライン結果を提示します。データセットとコードは https://github.com/hnuzhy/DirectMHP で公開されています。
Existing head pose estimation (HPE) mainly focuses on single person with pre-detected frontal heads, which limits their applications in real complex scenarios with multi-persons. We argue that these single HPE methods are fragile and inefficient for Multi-Person Head Pose Estimation (MPHPE) since they rely on the separately trained face detector that cannot generalize well to full viewpoints, especially for heads with invisible face areas. In this paper, we focus on the full-range MPHPE problem, and propose a direct end-to-end simple baseline named DirectMHP. Due to the lack of datasets applicable to the full-range MPHPE, we firstly construct two benchmarks by extracting ground-truth labels for head detection and head orientation from public datasets AGORA and CMU Panoptic. They are rather challenging for having many truncated, occluded, tiny and unevenly illuminated human heads. Then, we design a novel end-to-end trainable one-stage network architecture by joint regressing locations and orientations of multi-head to address the MPHPE problem. Specifically, we regard pose as an auxiliary attribute of the head, and append it after the traditional object prediction. Arbitrary pose representation such as Euler angles is acceptable by this flexible design. Then, we jointly optimize these two tasks by sharing features and utilizing appropriate multiple losses. In this way, our method can implicitly benefit from more surroundings to improve HPE accuracy while maintaining head detection performance. We present comprehensive comparisons with state-of-the-art single HPE methods on public benchmarks, as well as superior baseline results on our constructed MPHPE datasets. Datasets and code are released in https://github.com/hnuzhy/DirectMHP.