人間の軌道予測は、自動運転車、社会的認識ロボット、および高度なビデオ監視アプリケーションの重要なコンポーネントです。このやりがいのある作業には、通常、過去の動き、環境、および可能性のある目的地に関する知識が必要です。このコンテキストでは、マルチモダリティは基本的な側面であり、その効果的なモデリングはどのアーキテクチャにも有益です。それにもかかわらず、将来の本質的に不確実な性質のために、正確な軌道を推測することは困難です。これらの困難を克服するために、最近のモデルはさまざまな入力を使用し、複雑な融合メカニズムを使用して人間の意図をモデル化することを提案しています。この点で、過去に観察された位置にのみ作用する軽量の注意ベースの再発バックボーンを提案します。このバックボーンはすでに有望な結果を提供していますが、シーンを意識した目標推定モジュールと組み合わせると、予測精度を大幅に向上できることを示しています。この目的のために、U-Netアーキテクチャに基づく共通の目標モジュールを採用します。このモジュールは、セマンティック情報をさらに抽出して、シーンに準拠した宛先を予測します。公開されているデータセット(SDD、inD、ETH / UCYなど)で広範な実験を行い、モデルの複雑さを軽減しながら、最先端の手法と同等のパフォーマンスを発揮することを示しています。
Human trajectory forecasting is a key component of autonomous vehicles, social-aware robots and advanced video-surveillance applications. This challenging task typically requires knowledge about past motion, the environment and likely destination areas. In this context, multi-modality is a fundamental aspect and its effective modeling can be beneficial to any architecture. Inferring accurate trajectories is nevertheless challenging, due to the inherently uncertain nature of the future. To overcome these difficulties, recent models use different inputs and propose to model human intentions using complex fusion mechanisms. In this respect, we propose a lightweight attention-based recurrent backbone that acts solely on past observed positions. Although this backbone already provides promising results, we demonstrate that its prediction accuracy can be improved considerably when combined with a scene-aware goal-estimation module. To this end, we employ a common goal module, based on a U-Net architecture, which additionally extracts semantic information to predict scene-compliant destinations. We conduct extensive experiments on publicly-available datasets (i.e. SDD, inD, ETH/UCY) and show that our approach performs on par with state-of-the-art techniques while reducing model complexity.