arXiv reaDer
PreTR:時空間非自己回帰軌道予測トランスフォーマー
PreTR: Spatio-Temporal Non-Autoregressive Trajectory Prediction Transformer
今日、私たちのモビリティシステムは、交通安全の向上を目指すインテリジェント車両の時代へと進化しています。それらの脆弱性のために、歩行者はこれらの開発から最も恩恵を受けるユーザーです。ただし、それらの軌道を予測することは、最も困難な懸念事項の1つです。実際、正確な予測には、複雑になる可能性のあるマルチエージェントの相互作用を十分に理解する必要があります。これらの相互作用によって引き起こされる根本的な空間的および時間的パターンを学ぶことは、多くの研究者が取り組んでいる競争的で未解決の問題です。この論文では、因数分解された時空間アテンションモジュールを使用してマルチエージェントシーンから特徴を抽出するPRediction Transformer(PReTR)と呼ばれるモデルを紹介します。これは、以前に研究されたモデルよりも計算の必要性が少なく、経験的に優れた結果を示しています。さらに、モーション予測の以前の作業は、グラウンドトゥルースサンプルではなくモデル予測サンプルを条件とする将来のシーケンスを生成することによって引き起こされる露出バイアスの問題に悩まされています。提案されたソリューションを超えるために、学習したオブジェクトクエリのセットを並列デコードするためにエンコーダ-デコーダトランスフォーマーネットワークを活用します。この非自己回帰ソリューションは、反復条件付けの必要性を回避し、間違いなくトレーニングとテストの計算時間を短縮します。歩行者の軌道予測のために公開されているベンチマークであるETH/UCYデータセットでモデルを評価します。最後に、軌道予測タスクが非自己回帰タスクとしてより適切に解決できることを示すことにより、並列デコード手法の使用を正当化します。
Nowadays, our mobility systems are evolving into the era of intelligent vehicles that aim to improve road safety. Due to their vulnerability, pedestrians are the users who will benefit the most from these developments. However, predicting their trajectory is one of the most challenging concerns. Indeed, accurate prediction requires a good understanding of multi-agent interactions that can be complex. Learning the underlying spatial and temporal patterns caused by these interactions is even more of a competitive and open problem that many researchers are tackling. In this paper, we introduce a model called PRediction Transformer (PReTR) that extracts features from the multi-agent scenes by employing a factorized spatio-temporal attention module. It shows less computational needs than previously studied models with empirically better results. Besides, previous works in motion prediction suffer from the exposure bias problem caused by generating future sequences conditioned on model prediction samples rather than ground-truth samples. In order to go beyond the proposed solutions, we leverage encoder-decoder Transformer networks for parallel decoding a set of learned object queries. This non-autoregressive solution avoids the need for iterative conditioning and arguably decreases training and testing computational time. We evaluate our model on the ETH/UCY datasets, a publicly available benchmark for pedestrian trajectory prediction. Finally, we justify our usage of the parallel decoding technique by showing that the trajectory prediction task can be better solved as a non-autoregressive task.
updated: Thu Mar 17 2022 12:52:23 GMT+0000 (UTC)
published: Thu Mar 17 2022 12:52:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト