arXiv reaDer
ビデオからの 3D 表現によるオブジェクトの追跡
Tracking Objects with 3D Representation from Videos
データの関連付けは、オブジェクトのオクルージョンによる 2D 複数オブジェクト トラッキングにとって厄介な問題です。ただし、3D 空間では、データの関連付けはそれほど難しくありません。 3D カルマン フィルターを使用する場合のみ、オンライン オブジェクト トラッカーは LiDAR からの検出を関連付けることができます。この論文では、2D MOT におけるデータの関連付けを再考し、3D オブジェクト表現を利用して特徴空間内の各オブジェクトを分離します。既存の深度ベースの MOT 手法とは異なり、3D オブジェクト表現はオブジェクト関連付けモジュールと共同で学習できます。さらに、オブジェクトの 3D 表現はビデオから学習され、LiDAR や事前トレーニングされた深度推定器からの追加の手動注釈なしで 2D 追跡ラベルによって監視されます。単眼ビデオの擬似 3D オブジェクト ラベルから学習した 3D オブジェクト表現を使用して、P3DTrack と呼ばれる新しい 2D MOT パラダイムを提案します。広範な実験により、私たちの方法の有効性が示されています。大規模な Waymo オープン データセットで新たな最先端のパフォーマンスを実現します。
Data association is a knotty problem for 2D Multiple Object Tracking due to the object occlusion. However, in 3D space, data association is not so hard. Only with a 3D Kalman Filter, the online object tracker can associate the detections from LiDAR. In this paper, we rethink the data association in 2D MOT and utilize the 3D object representation to separate each object in the feature space. Unlike the existing depth-based MOT methods, the 3D object representation can be jointly learned with the object association module. Besides, the object's 3D representation is learned from the video and supervised by the 2D tracking labels without additional manual annotations from LiDAR or pretrained depth estimator. With 3D object representation learning from Pseudo 3D object labels in monocular videos, we propose a new 2D MOT paradigm, called P3DTrack. Extensive experiments show the effectiveness of our method. We achieve new state-of-the-art performance on the large-scale Waymo Open Dataset.
updated: Thu Jun 08 2023 17:58:45 GMT+0000 (UTC)
published: Thu Jun 08 2023 17:58:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト