arXiv reaDer
相関学習による複数オブジェクトの追跡
Multiple Object Tracking with Correlation Learning
最近の研究では、畳み込みネットワークが検出機能と外観機能を同時に学習することにより、複数のオブジェクト追跡のパフォーマンスを大幅に向上させていることが示されています。ただし、畳み込みネットワーク構造自体のローカルな認識のため、空間的および時間的の両方での長距離依存性を効率的に取得することはできません。空間レイアウトを組み込むために、ローカル相関モジュールを利用して、ターゲットとその周囲の環境との間の位相関係をモデル化することを提案します。これにより、混雑したシーンでのモデルの識別力を高めることができます。具体的には、各空間位置とそのコンテキストの密な対応を確立し、自己教師あり学習を通じて相関ボリュームを明示的に制約します。時間的コンテキストを活用するために、既存のアプローチは一般に2つ以上の隣接するフレームを利用して拡張された特徴表現を構築しますが、動的モーションシーンをCNNで表現することは本質的に困難です。代わりに、私たちの論文は、時間的コンテキストを整列および伝播するために、異なるレイヤーの畳み込み特徴マップ上でフレーム間の一致を確立するための学習可能な相関演算子を提案します。 MOTデータセットに関する広範な実験結果により、私たちのアプローチは、優れたパフォーマンスとの相関学習の有効性を実証し、MOT17で76.5%の最先端のMOTAと73.6%のIDF1を取得します。
Recent works have shown that convolutional networks have substantially improved the performance of multiple object tracking by simultaneously learning detection and appearance features. However, due to the local perception of the convolutional network structure itself, the long-range dependencies in both the spatial and temporal cannot be obtained efficiently. To incorporate the spatial layout, we propose to exploit the local correlation module to model the topological relationship between targets and their surrounding environment, which can enhance the discriminative power of our model in crowded scenes. Specifically, we establish dense correspondences of each spatial location and its context, and explicitly constrain the correlation volumes through self-supervised learning. To exploit the temporal context, existing approaches generally utilize two or more adjacent frames to construct an enhanced feature representation, but the dynamic motion scene is inherently difficult to depict via CNNs. Instead, our paper proposes a learnable correlation operator to establish frame-to-frame matches over convolutional feature maps in the different layers to align and propagate temporal context. With extensive experimental results on the MOT datasets, our approach demonstrates the effectiveness of correlation learning with the superior performance and obtains state-of-the-art MOTA of 76.5% and IDF1 of 73.6% on MOT17.
updated: Thu Apr 08 2021 06:48:02 GMT+0000 (UTC)
published: Thu Apr 08 2021 06:48:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト