脆弱な道路利用者の行動を予測することは、自動運転システム(ADS)を現実の世界に導入するための必須の前提条件です。横断歩道の意図は、特に都市部の運転では、リアルタイムで認識される必要があります。最近の研究では、このタスクに視覚ベースのディープニューラルネットワークモデルを使用する可能性が示されています。ただし、これらのモデルは堅牢ではなく、特定の問題を解決する必要があります。第一に、対象の歩行者とシーンの間の相互作用を説明するグローバルな時空間コンテキストが適切に利用されていません。第二に、異なるセンサーデータを融合するための最適な戦略は徹底的に調査されていません。この作業は、横断歩道の意図を予測するために本質的に異なる時空間機能を融合する新しいニューラルネットワークアーキテクチャを導入することにより、上記の制限に対処します。 RGB画像のシーケンス、セマンティックセグメンテーションマスク、自我車両速度などのさまざまな現象を、注意メカニズムとリカレントニューラルネットワークのスタックを使用して最適な方法で融合します。最適なアーキテクチャは、徹底的なアブレーションと比較研究を通じて得られました。 JAAD歩行者行動予測ベンチマークに関する広範な比較実験は、最先端のパフォーマンスが達成された提案された方法の有効性を示しています。私たちのコードはオープンソースであり、公開されています。
Predicting vulnerable road user behavior is an essential prerequisite for deploying Automated Driving Systems (ADS) in the real-world. Pedestrian crossing intention should be recognized in real-time, especially for urban driving. Recent works have shown the potential of using vision-based deep neural network models for this task. However, these models are not robust and certain issues still need to be resolved. First, the global spatio-temproal context that accounts for the interaction between the target pedestrian and the scene has not been properly utilized. Second, the optimum strategy for fusing different sensor data has not been thoroughly investigated. This work addresses the above limitations by introducing a novel neural network architecture to fuse inherently different spatio-temporal features for pedestrian crossing intention prediction. We fuse different phenomena such as sequences of RGB imagery, semantic segmentation masks, and ego-vehicle speed in an optimum way using attention mechanisms and a stack of recurrent neural networks. The optimum architecture was obtained through exhaustive ablation and comparison studies. Extensive comparative experiments on the JAAD pedestrian action prediction benchmark demonstrate the effectiveness of the proposed method, where state-of-the-art performance was achieved. Our code is open-source and publicly available.