監視および捜索救助アプリケーションでは、ローエンドデバイスでリアルタイムにマルチターゲット追跡(MOT)を実行することが重要です。今日のMOTソリューションは、計算が非常に複雑になる傾向があるディープニューラルネットワークを採用しています。フレームサイズがトラッキングパフォーマンスに与える影響を認識し、既存の完全畳み込みネットワークベースのトラッカー上で動作してトラッキングスループットを高速化する、モデルにとらわれないフレームサイズ選択アプローチであるDeepScaleを提案します。トレーニング段階では、検出可能性スコアをワンショットトラッカーアーキテクチャに組み込んで、DeepScaleがさまざまなフレームサイズの表現推定を自己監視方式で学習できるようにします。推論中に、ユーザーが制御するパラメーターに基づいて、ビジュアルコンテンツの複雑さに応じてフレームサイズを適応させることができます。 MOTデータセットでの広範な実験とベンチマークテストは、DeepScaleの有効性と柔軟性を示しています。最先端のトラッカーであるDeepScale ++と比較すると、DeepScaleのバリアントは、1つの構成でMOT15データセットの追跡精度を中程度(約2.3%)低下させるだけで、1.57倍の加速を実現します。
In surveillance and search and rescue applications, it is important to perform multi-target tracking (MOT) in real-time on low-end devices. Today's MOT solutions employ deep neural networks, which tend to have high computation complexity. Recognizing the effects of frame sizes on tracking performance, we propose DeepScale, a model agnostic frame size selection approach that operates on top of existing fully convolutional network-based trackers to accelerate tracking throughput. In the training stage, we incorporate detectability scores into a one-shot tracker architecture so that DeepScale can learn representation estimations for different frame sizes in a self-supervised manner. During inference, it can adapt frame sizes according to the complexity of visual contents based on user-controlled parameters. Extensive experiments and benchmark tests on MOT datasets demonstrate the effectiveness and flexibility of DeepScale. Compared to a state-of-the-art tracker, DeepScale++, a variant of DeepScale achieves 1.57X accelerated with only moderate degradation (~ 2.3%) in tracking accuracy on the MOT15 dataset in one configuration.