arXiv reaDer
ドライバーによる車外オブジェクトの参照に適用されるディープラーニングを使用したマルチモーダルフュージョン
Multimodal Fusion Using Deep Learning Applied to Driver's Referencing of Outside-Vehicle Objects
車とのよりインテリジェントな自然なユーザーインタラクションへの関心が高まっています。手のジェスチャーとスピーチは、ドライバーと車の相互作用にすでに適用されています。さらに、マルチモーダルアプローチは自動車業界でも有望です。この論文では、車外の物体を参照するためのマルチモーダル融合ネットワークの深層学習を利用します。視線、頭のポーズ、指差しの機能を同時に使用して、さまざまな車のポーズで参照されるオブジェクトを正確に予測します。特に車内で、自然な形の参照に使用した場合の各モダリティの実際的な制限を示します。私たちの結果から明らかなように、他のモダリティを追加することで、モダリティ固有の制限を大幅に克服しています。この作業は、特に自然なユーザーインタラクションに移行する場合に、マルチモーダルセンシングの重要性を強調しています。さらに、ユーザーベースの分析では、車両のポーズによってユーザーの行動の認識に顕著な違いが見られます。
There is a growing interest in more intelligent natural user interaction with the car. Hand gestures and speech are already being applied for driver-car interaction. Moreover, multimodal approaches are also showing promise in the automotive industry. In this paper, we utilize deep learning for a multimodal fusion network for referencing objects outside the vehicle. We use features from gaze, head pose and finger pointing simultaneously to precisely predict the referenced objects in different car poses. We demonstrate the practical limitations of each modality when used for a natural form of referencing, specifically inside the car. As evident from our results, we overcome the modality specific limitations, to a large extent, by the addition of other modalities. This work highlights the importance of multimodal sensing, especially when moving towards natural user interaction. Furthermore, our user based analysis shows noteworthy differences in recognition of user behavior depending upon the vehicle pose.
updated: Mon Jul 26 2021 12:37:06 GMT+0000 (UTC)
published: Mon Jul 26 2021 12:37:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト