戦術的ドライバー行動モデリングの問題では、ビデオ、LiDAR、CANバスデータストリームなどの豊富なマルチモーダル信号から、複雑な都市シナリオでのドライバーの行動を理解する必要があります。ただし、ディープラーニングの研究の大部分は、車両/環境の状態(センサーフュージョン)またはドライバーポリシー(一時的なデータから)のいずれかを学習することに焦点を当てていますが、両方ではありません。両方のタスクをエンドツーエンドで学習すると、知識を最大限に引き出すことができますが、定式化とトレーニングの成功には課題があります。この作業では、この方向で有望な最初のステップを提案します。 LSTMのゲーティングメカニズムに触発され、融合の重みと時間の重みを同時に学習するゲート型回帰融合ユニット(GRFU)を提案します。すべて自律ナビゲーションの領域で、教師付き回帰および分類タスクでマルチモーダルおよび時間ベースラインより優れたパフォーマンスを発揮します。 HDDデータセットでの戦術的なドライバーの行動分類のmAPスコアが最新技術よりも10%向上し、TORCSデータセットでのステアリングアクション回帰の平均二乗誤差全体が20%低下したことに注目してください。
The Tactical Driver Behavior modeling problem requires understanding of driver actions in complicated urban scenarios from a rich multi modal signals including video, LiDAR and CAN bus data streams. However, the majority of deep learning research is focused either on learning the vehicle/environment state (sensor fusion) or the driver policy (from temporal data), but not both. Learning both tasks end-to-end offers the richest distillation of knowledge, but presents challenges in formulation and successful training. In this work, we propose promising first steps in this direction. Inspired by the gating mechanisms in LSTM, we propose gated recurrent fusion units (GRFU) that learn fusion weighting and temporal weighting simultaneously. We demonstrate it's superior performance over multimodal and temporal baselines in supervised regression and classification tasks, all in the realm of autonomous navigation. We note a 10% improvement in the mAP score over state-of-the-art for tactical driver behavior classification in HDD dataset and a 20% drop in overall Mean squared error for steering action regression on TORCS dataset.