安全な自動運転を確保するためには、車両内および周辺の状況に関する正確な情報が利用可能である必要があります。したがって、車内の乗員や物体を監視することは非常に重要です。最先端では、単一または複数のディープニューラルネットワークが、オブジェクト認識、セマンティックセグメンテーション、または人間のポーズ推定のいずれかに使用されます。対照的に、私たちはマルチタスク検出、セグメンテーション、ポーズ推定ネットワーク(MDSP)を提案します。これは、占有監視の分野でこれら3つのタスクすべてを共同で解決する最初のマルチタスクネットワークです。シェアードアーキテクチャにより、メモリとコンピューティングのコストを節約しながら、より高い精度を実現できます。さらに、私たちのアーキテクチャでは、単純なエンドツーエンドのトレーニング中に、前述の3つのタスクを柔軟に組み合わせることができます。優れたパフォーマンスを実証するために、公開データセットSVIROおよびTiCaMに対して包括的な評価を実行します。
In order to ensure safe autonomous driving, precise information about the conditions in and around the vehicle must be available. Accordingly, the monitoring of occupants and objects inside the vehicle is crucial. In the state-of-the-art, single or multiple deep neural networks are used for either object recognition, semantic segmentation, or human pose estimation. In contrast, we propose our Multitask Detection, Segmentation and Pose Estimation Network (MDSP) -- the first multitask network solving all these three tasks jointly in the area of occupancy monitoring. Due to the shared architecture, memory and computing costs can be saved while achieving higher accuracy. Furthermore, our architecture allows a flexible combination of the three mentioned tasks during a simple end-to-end training. We perform comprehensive evaluations on the public datasets SVIRO and TiCaM in order to demonstrate the superior performance.