長期的な人間の動きを予測することは、将来の軌道に非線形性、マルチモダリティ、固有の不確実性があるため、困難な作業です。基になるシーンとエージェントの過去の動きは、エージェントの将来の動きを予測するための有用なキューを提供できます。ただし、2つの入力の不均一性は、シーンと過去の軌跡の共同表現を学習するための課題となります。この課題に対処するために、グリッド表現に基づいてエージェントの軌跡を予測するモデルを提案します。バイナリ2-Dグリッドを使用してエージェントの過去の軌跡を表し、エージェント中心の参照フレームを使用して、基になるシーンをRGB鳥瞰図(BEV)画像として表します。畳み込みレイヤーを使用してシーンと過去の軌跡をエンコードし、畳み込みLSTM(ConvLSTM)デコーダーを使用して軌跡予測を生成します。公開されているスタンフォードドローンデータセット(SDD)の結果は、モデルが従来のアプローチよりも優れており、シーン構造と過去の動きに適合する現実的な将来の軌道を出力することを示しています。
Forecasting long-term human motion is a challenging task due to the non-linearity, multi-modality and inherent uncertainty in future trajectories. The underlying scene and past motion of agents can provide useful cues to predict their future motion. However, the heterogeneity of the two inputs poses a challenge for learning a joint representation of the scene and past trajectories. To address this challenge, we propose a model based on grid representations to forecast agent trajectories. We represent the past trajectories of agents using binary 2-D grids, and the underlying scene as a RGB birds-eye view (BEV) image, with an agent-centric frame of reference. We encode the scene and past trajectories using convolutional layers and generate trajectory forecasts using a Convolutional LSTM (ConvLSTM) decoder. Results on the publicly available Stanford Drone Dataset (SDD) show that our model outperforms prior approaches and outputs realistic future trajectories that comply with scene structure and past motion.