arXiv reaDer
オブジェクトの永続性で追跡することを学ぶ
Learning to Track with Object Permanence
オンラインマルチオブジェクト追跡の主要なアプローチである検出による追跡は、ローカリゼーションと再識別のステップを交互に行います。その結果、それは瞬間的な観察の質に強く依存し、オブジェクトが完全に見えない場合に失敗することがよくあります。対照的に、人間の追跡は、オブジェクトの永続性の概念によって強調されます。オブジェクトが認識されると、その物理的な存在を認識し、完全にオクルージョンされている場合でもほぼローカライズできます。この作業では、そのような推論が可能な共同オブジェクトの検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。フレームのペアを入力として受け取る最近のCenterTrackアーキテクチャの上に構築し、任意の長さのビデオに拡張します。この目的のために、時空間の反復メモリモジュールでモデルを拡張し、以前のすべての履歴を使用して、現在のフレーム内のオブジェクトの場所とIDについて推論できるようにします。しかし、そのようなアプローチをどのように訓練するかは明らかではありません。マルチオブジェクト追跡用の新しい大規模な合成データセットでこの質問を研究します。これは、目に見えないオブジェクトのグラウンドトゥルース注釈を提供し、オクルージョンの背後の追跡を監視するためのいくつかのアプローチを提案します。合成データと実際のデータで共同でトレーニングされた私たちのモデルは、オクルージョンに対する堅牢性のおかげで、KITTIおよびMOT17データセットの最先端を上回っています。
Tracking by detection, the dominant approach for online multi-object tracking, alternates between localization and re-identification steps. As a result, it strongly depends on the quality of instantaneous observations, often failing when objects are not fully visible. In contrast, tracking in humans is underlined by the notion of object permanence: once an object is recognized, we are aware of its physical existence and can approximately localize it even under full occlusions. In this work, we introduce an end-to-end trainable approach for joint object detection and tracking that is capable of such reasoning. We build on top of the recent CenterTrack architecture, which takes pairs of frames as input, and extend it to videos of arbitrary length. To this end, we augment the model with a spatio-temporal, recurrent memory module, allowing it to reason about object locations and identities in the current frame using all the previous history. It is, however, not obvious how to train such an approach. We study this question on a new, large-scale, synthetic dataset for multi-object tracking, which provides ground truth annotations for invisible objects, and propose several approaches for supervising tracking behind occlusions. Our model, trained jointly on synthetic and real data, outperforms the state of the art on KITTI, and MOT17 datasets thanks to its robustness to occlusions.
updated: Fri Mar 26 2021 04:43:04 GMT+0000 (UTC)
published: Fri Mar 26 2021 04:43:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト