さまざまなディープニューラルネットワークベースの歩行者検出機能をサポートするマルチタスクネットワークを紹介します。 2Dおよび3Dの人間のポーズに加えて、全身のバウンディングボックス入力に基づく体と頭の向きの推定もサポートします。これにより、明示的な顔認識が不要になります。 3D人間の姿勢推定と向き推定のパフォーマンスが最先端に匹敵することを示します。 3D人間のポーズ、特に全身データに基づく体と頭の向きの推定にはデータセットがほとんど存在しないため、ネットワークをトレーニングするための特定のシミュレーションデータの利点をさらに示します。ネットワークアーキテクチャは比較的シンプルですが、強力であり、さらなる研究やアプリケーションに簡単に適応できます。
We present a multitask network that supports various deep neural network based pedestrian detection functions. Besides 2D and 3D human pose, it also supports body and head orientation estimation based on full body bounding box input. This eliminates the need for explicit face recognition. We show that the performance of 3D human pose estimation and orientation estimation is comparable to the state-of-the-art. Since very few data sets exist for 3D human pose and in particular body and head orientation estimation based on full body data, we further show the benefit of particular simulation data to train the network. The network architecture is relatively simple, yet powerful, and easily adaptable for further research and applications.