バランスの取れた精度と速度により、共同学習検出とReIDベースのワンショットモデルは、マルチオブジェクトトラッキング(MOT)で大きな注目を集めています。ただし、ワンショット追跡パラダイムにおける上記の2つのタスクの違いは無意識のうちに見過ごされており、2段階の方法よりもパフォーマンスが低下します。この論文では、前述の2つのタスクの推論プロセスを分析します。私たちの分析は、それらの競争が必然的にタスク依存の表現の学習を傷つけ、それが追跡性能をさらに妨げることを明らかにしています。この問題を解決するために、タスクに依存する表現を学習するように別々のブランチを効果的に推進できる新しい相互相関ネットワークを提案します。さらに、ReID機能を向上させるために識別可能な埋め込みを学習するスケール認識アテンションネットワークを導入します。繊細に設計されたネットワークを、CSTrackと呼ばれるワンショットオンラインMOTシステムに統合します。ベルやホイッスルなしで、私たちのモデルはMOT16とMOT17で新しい最先端のパフォーマンスを実現します。私たちのコードはhttps://github.com/JudasDie/SOTSでリリースされています。
Due to balanced accuracy and speed, joint learning detection and ReID-based one-shot models have drawn great attention in multi-object tracking(MOT). However, the differences between the above two tasks in the one-shot tracking paradigm are unconsciously overlooked, leading to inferior performance than the two-stage methods. In this paper, we dissect the reasoning process of the aforementioned two tasks. Our analysis reveals that the competition of them inevitably hurts the learning of task-dependent representations, which further impedes the tracking performance. To remedy this issue, we propose a novel cross-correlation network that can effectively impel the separate branches to learn task-dependent representations. Furthermore, we introduce a scale-aware attention network that learns discriminative embeddings to improve the ReID capability. We integrate the delicately designed networks into a one-shot online MOT system, dubbed CSTrack. Without bells and whistles, our model achieves new state-of-the-art performances on MOT16 and MOT17. Our code is released at https://github.com/JudasDie/SOTS.