MDNetなどの深層学習ベースの視覚追跡アルゴリズムは、深層ニューラルネットワークの特徴抽出機能を活用した高性能を実現します。ただし、これらのトラッカーの追跡効率は、ビデオの各フレームの特徴抽出が遅いため、それほど高くありません。本稿では、時間のかかる問題を軽減するための効果的な追跡アルゴリズムを提案します。具体的には、スパースキーフレームでのみ高価な機能ネットワークを実行し、オプティカルフローを介して他のフレームに機能マップを転送する、ディープフロー共同ネットワークを設計します。さらに、最も適切なキーフレームを選択するための効果的な適応キーフレームスケジューリングメカニズムを作成します。大規模なデータセットで提案されているアプローチを評価します:OTB2013およびOTB2015。実験結果は、我々のアルゴリズムがかなりの高速化と高精度を達成することを示しています。
The deep learning-based visual tracking algorithms such as MDNet achieve high performance leveraging to the feature extraction ability of a deep neural network. However, the tracking efficiency of these trackers is not very high due to the slow feature extraction for each frame in a video. In this paper, we propose an effective tracking algorithm to alleviate the time-consuming problem. Specifically, we design a deep flow collaborative network, which executes the expensive feature network only on sparse keyframes and transfers the feature maps to other frames via optical flow. Moreover, we raise an effective adaptive keyframe scheduling mechanism to select the most appropriate keyframe. We evaluate the proposed approach on large-scale datasets: OTB2013 and OTB2015. The experiment results show that our algorithm achieves considerable speedup and high precision as well.