arXiv reaDer
マルチモーダルトランスフォーマーによるコンテキストアウェアな歩行者の軌跡予測
Context-aware Pedestrian Trajectory Prediction with Multimodal Transformer
歩行者の将来の軌跡を予測するための新しいソリューションを提案します。私たちの方法は、歩行者の位置と自車の速度の両方を入力として受け取る、マルチモーダルなエンコーダ/デコーダ変換器アーキテクチャを使用します。特に、私たちのデコーダは単一パスで将来の軌道全体を予測し、1 ステップ先の予測を実行しないため、この方法は組み込みエッジ展開に効果的です。私たちは詳細な実験を実行し、PIE と JAAD という 2 つの人気のあるデータセットでメソッドを評価します。定量的な結果は、0.5、1.0、および 1.5 秒の 3 つの時間範囲で一貫して最小誤差を達成する、現在の最先端モデルに対する私たちの提案モデルの優位性を示しています。さらに、提案された方法は、PIE と JAAD の 2 つのデータセットに対する最先端の方法よりも大幅に高速です。最後に、アブレーション実験は、私たちの方法の重要なマルチモーダル構成の影響を実証します。
We propose a novel solution for predicting future trajectories of pedestrians. Our method uses a multimodal encoder-decoder transformer architecture, which takes as input both pedestrian locations and ego-vehicle speeds. Notably, our decoder predicts the entire future trajectory in a single-pass and does not perform one-step-ahead prediction, which makes the method effective for embedded edge deployment. We perform detailed experiments and evaluate our method on two popular datasets, PIE and JAAD. Quantitative results demonstrate the superiority of our proposed model over the current state-of-the-art, which consistently achieves the lowest error for 3 time horizons of 0.5, 1.0 and 1.5 seconds. Moreover, the proposed method is significantly faster than the state-of-the-art for the two datasets of PIE and JAAD. Lastly, ablation experiments demonstrate the impact of the key multimodal configuration of our method.
updated: Fri Jul 07 2023 18:21:05 GMT+0000 (UTC)
published: Fri Jul 07 2023 18:21:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト