監視および捜索救助アプリケーションでは、ローエンドデバイスでリアルタイムにマルチターゲット追跡(MOT)を実行することが重要です。今日のMOTソリューションは、計算が非常に複雑になる傾向があるディープニューラルネットワークを採用しています。フレームサイズがトラッキングパフォーマンスに与える影響を認識し、既存の完全畳み込みネットワークベースのトラッカー上で動作してトラッキングスループットを高速化する、モデルにとらわれないフレームサイズ選択アプローチであるDeepScaleを提案します。トレーニング段階では、検出可能性スコアをワンショットトラッカーアーキテクチャに組み込んで、DeepScaleがさまざまなフレームサイズの表現推定を自己監視方式で学習できるようにします。推論中に、ユーザーが制御するパラメーターに基づいて、ビジュアルコンテンツの複雑さに応じてフレームサイズを適応させることができます。エッジサーバー上の計算リソースを活用するために、MOT用に調整された2つの計算パーティションスキーム、つまり、適応フレームサイズ送信のみのエッジサーバーとエッジサーバー支援追跡を提案します。 MOTデータセットでの広範な実験とベンチマークテストは、DeepScaleの有効性と柔軟性を示しています。最先端のトラッカーであるDeepScale ++と比較すると、DeepScaleのバリアントは1.57倍の加速を実現し、1つの構成でMOT15データセットの追跡精度が約2.3 \中程度低下します。 NVIDIA Jetson TX2ボードとGPUサーバーで構成される小規模なテストベッドに、DeepScale ++と提案された計算パーティションスキームを実装して評価しました。実験により、サーバーのみまたはスマートカメラのみのソリューションと比較して、追跡パフォーマンスと遅延の間の重要なトレードオフが明らかになりました。
In surveillance and search and rescue applications, it is important to perform multi-target tracking (MOT) in real-time on low-end devices. Today's MOT solutions employ deep neural networks, which tend to have high computation complexity. Recognizing the effects of frame sizes on tracking performance, we propose DeepScale, a model agnostic frame size selection approach that operates on top of existing fully convolutional network-based trackers to accelerate tracking throughput. In the training stage, we incorporate detectability scores into a one-shot tracker architecture so that DeepScale can learn representation estimations for different frame sizes in a self-supervised manner. During inference, it can adapt frame sizes according to the complexity of visual contents based on user-controlled parameters. To leverage computation resources on edge servers, we propose two computation partition schemes tailored for MOT, namely, edge server only with adaptive frame-size transmission and edge server-assisted tracking. Extensive experiments and benchmark tests on MOT datasets demonstrate the effectiveness and flexibility of DeepScale. Compared to a state-of-the-art tracker, DeepScale++, a variant of DeepScale achieves 1.57X accelerated with only moderate degradation ~2.3\ in tracking accuracy on the MOT15 dataset in one configuration. We have implemented and evaluated DeepScale++ and the proposed computation partition schemes on a small-scale testbed consisting of an NVIDIA Jetson TX2 board and a GPU server. The experiments reveal non-trivial trade-offs between tracking performance and latency compared to server-only or smart camera-only solutions.