因果推論に基づいて運転行動を実行することは、運転の安全性を確保するために不可欠です。この作業では、因果推論に基づいて運転行動を分類する際に、最先端の3D畳み込みニューラルネットワーク(CNN)がどのように機能するかを調査しました。モデルの性能を視覚的に検査するために、摂動に基づく視覚的説明法を提案しました。ビデオの注意の顕著性を調べると、既存のモデルでは特定のアクション(停止など)の原因(トラフィックライトなど)を正確にキャプチャできないことがわかりました。したがって、Temporal Reasoning Block(TRB)が提案され、モデルに導入されました。 TRBモデルを使用すると、86.3%の精度を達成しました。これは、以前の作品の最先端の3D CNNよりも優れています。注意の顕著性はまた、TRBがモデルが原因により正確に焦点を当てるのに役立つことを実証しました。数値と視覚の両方の評価により、提案したTRBモデルは、行動の因果推論を学習することにより、正確な運転行動予測を提供できると結論付けました。
Performing driving behaviors based on causal reasoning is essential to ensure driving safety. In this work, we investigated how state-of-the-art 3D Convolutional Neural Networks (CNNs) perform on classifying driving behaviors based on causal reasoning. We proposed a perturbation-based visual explanation method to inspect the models' performance visually. By examining the video attention saliency, we found that existing models could not precisely capture the causes (e.g., traffic light) of the specific action (e.g., stopping). Therefore, the Temporal Reasoning Block (TRB) was proposed and introduced to the models. With the TRB models, we achieved the accuracy of 86.3%, which outperform the state-of-the-art 3D CNNs from previous works. The attention saliency also demonstrated that TRB helped models focus on the causes more precisely. With both numerical and visual evaluations, we concluded that our proposed TRB models were able to provide accurate driving behavior prediction by learning the causal reasoning of the behaviors.