Multiple Object Forecasting: Predicting Future Object Locations in Diverse Environments
 このホワイトペーパーでは、複数オブジェクト予測(MOF)の問題を紹介します。目標は、追跡対象の将来の境界ボックスを予測することです。主に鳥瞰的な観点から問題を検討するオブジェクト軌跡予測に関する既存の作業とは対照的に、オブジェクトレベルの観点から問題を定式化し、軌跡だけでなく、オブジェクト境界ボックス全体の予測を求めます。このタスクを解決するために、Citywalksデータセットを紹介します。これは、20万以上の高解像度ビデオフレームで構成されています。 Citywalksは、さまざまな気象条件と3.5kを超えるユニークな歩行者軌跡で、ヨーロッパ10か国の21都市で記録された映像で構成されています。評価のために、MOFの既存の軌道予測方法を採用し、MOT-17データセットの微調整なしでクロスデータセットの一般化可能性を確認します。最後に、MOF用の新しいエンコーダ/デコーダアーキテクチャであるSTEDを紹介します。 STEDは、視覚的機能と時間的機能を組み合わせてオブジェクトモーションとエゴモーションの両方をモデル化し、MOFの既存のアプローチよりも優れています。コードとデータセットのリンク:
This paper introduces the problem of multiple object forecasting (MOF), in which the goal is to predict future bounding boxes of tracked objects. In contrast to existing works on object trajectory forecasting which primarily consider the problem from a birds-eye perspective, we formulate the problem from an object-level perspective and call for the prediction of full object bounding boxes, rather than trajectories alone. Towards solving this task, we introduce the Citywalks dataset, which consists of over 200k high-resolution video frames. Citywalks comprises of footage recorded in 21 cities from 10 European countries in a variety of weather conditions and over 3.5k unique pedestrian trajectories. For evaluation, we adapt existing trajectory forecasting methods for MOF and confirm cross-dataset generalizability on the MOT-17 dataset without fine-tuning. Finally, we present STED, a novel encoder-decoder architecture for MOF. STED combines visual and temporal features to model both object-motion and ego-motion, and outperforms existing approaches for MOF. Code & dataset link:
updated: Tue Jan 07 2020 12:19:53 GMT+0000 (UTC)
published: Thu Sep 26 2019 07:11:50 GMT+0000 (UTC)
