arXiv reaDer
交通事故の早期予測のための説明可能な人工知能(XAI)に向けて
Towards explainable artificial intelligence (XAI) for early anticipation of traffic accidents
交通事故の予測は、安全が保証された運転体験を提供するための自動運転システム(ADS)の重要な機能です。事故予測モデルは、事故が発生する前に迅速かつ正確に予測することを目的としています。事故予測の既存の人工知能(AI)モデルには、意思決定について人間が解釈できる説明がありません。これらのモデルは良好に機能しますが、ADSユーザーにとってはブラックボックスのままであるため、信頼を得るのは困難です。この目的のために、この論文では、ダッシュカムビデオデータから交通事故を早期に予測するための時空間関係機能を学習するゲート付き回帰ユニット(GRU)ネットワークを紹介します。 Grad-CAMという名前の事後注意メカニズムがネットワークに統合され、事故予測の決定を視覚的に説明する顕著性マップが生成されます。アイトラッカーは、人間の注意マップを生成するために人間の目の注視点をキャプチャします。ネットワークで生成された顕著性マップの説明可能性は、人間の注意マップと比較して評価されます。パブリッククラッシュデータセットの定性的および定量的結果は、提案された説明可能なネットワークが、事故が発生する前に平均4.57秒、平均精度94.02%で事故を予測できることを確認しています。さらに、さまざまな事後注意ベースのXAIメソッドが評価および比較されます。これは、この研究で選択されたGrad-CAMが、クラッシュ予測の決定を説明するための高品質で人間が解釈可能な顕著性マップ(1.42正規化スキャンパス顕著性)を生成できることを確認します。重要なことに、結果は、提案されたAIモデルが、人間に着想を得た設計で、事故の予測において人間よりも優れていることを確認しています。
Traffic accident anticipation is a vital function of Automated Driving Systems (ADSs) for providing a safety-guaranteed driving experience. An accident anticipation model aims to predict accidents promptly and accurately before they occur. Existing Artificial Intelligence (AI) models of accident anticipation lack a human-interpretable explanation of their decision-making. Although these models perform well, they remain a black-box to the ADS users, thus difficult to get their trust. To this end, this paper presents a Gated Recurrent Unit (GRU) network that learns spatio-temporal relational features for the early anticipation of traffic accidents from dashcam video data. A post-hoc attention mechanism named Grad-CAM is integrated into the network to generate saliency maps as the visual explanation of the accident anticipation decision. An eye tracker captures human eye fixation points for generating human attention maps. The explainability of network-generated saliency maps is evaluated in comparison to human attention maps. Qualitative and quantitative results on a public crash dataset confirm that the proposed explainable network can anticipate an accident on average 4.57 seconds before it occurs, with 94.02% average precision. In further, various post-hoc attention-based XAI methods are evaluated and compared. It confirms that the Grad-CAM chosen by this study can generate high-quality, human-interpretable saliency maps (with 1.42 Normalized Scanpath Saliency) for explaining the crash anticipation decision. Importantly, results confirm that the proposed AI model, with a human-inspired design, can outperform humans in the accident anticipation.
updated: Sat Jul 31 2021 15:53:32 GMT+0000 (UTC)
published: Sat Jul 31 2021 15:53:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト