arXiv reaDer
歩行者の行動予測のための視覚ベースのモデルの分析
Analysis over vision-based models for pedestrian action anticipation
自動運転車の前で人間の行動を予測するのは困難な作業です。最近、いくつかの論文が、複数の入力特徴を組み合わせて歩行者の横断行動を予測することで、この問題に対処するモデル アーキテクチャを提案しています。この論文では、歩行者のコンテキストの画像を入力特徴として使用することに特に焦点を当てています。標準的な CNN および Transformer モジュールを利用して歩行者予測のバックボーンとして機能する、いくつかの時空間モデル アーキテクチャを紹介します。ただし、このペーパーの目的は、最先端のベンチマークを超えることではなく、これらのモデルの肯定的な予測と否定的な予測を分析することです。したがって、歩行者の行動予測のコンテキストにおけるビジョンベースの Transformer モデルの説明可能性に関する洞察を提供します。モデルが定量的には正しい結果を達成できるものの、定性的には人間のような説明を提供するには不十分であるケースを取り上げ、歩行者の行動予測問題に対する説明可能性への投資の重要性を強調します。
Anticipating human actions in front of autonomous vehicles is a challenging task. Several papers have recently proposed model architectures to address this problem by combining multiple input features to predict pedestrian crossing actions. This paper focuses specifically on using images of the pedestrian's context as an input feature. We present several spatio-temporal model architectures that utilize standard CNN and Transformer modules to serve as a backbone for pedestrian anticipation. However, the objective of this paper is not to surpass state-of-the-art benchmarks but rather to analyze the positive and negative predictions of these models. Therefore, we provide insights on the explainability of vision-based Transformer models in the context of pedestrian action prediction. We will highlight cases where the model can achieve correct quantitative results but falls short in providing human-like explanations qualitatively, emphasizing the importance of investing in explainability for pedestrian action anticipation problems.
updated: Sat May 27 2023 11:30:32 GMT+0000 (UTC)
published: Sat May 27 2023 11:30:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト