オブジェクトトラッキングは、「ビデオで適切なオブジェクトを見つける」と定式化できます。クラスに依存しない追跡の最近のアプローチは、「発見」部分に焦点を当てがちですが、タスクの「オブジェクト」部分を見落とす傾向があり、基本的にスライドウィンドウのフレーム上でテンプレートマッチングを行います。対照的に、クラス固有のトラッカーは、カテゴリ固有のオブジェクト検出器の形式のオブジェクト事前値に大きく依存しています。この作業では、カテゴリ固有の外観モデルを汎用オブジェクト性事前に再利用します。このアプローチでは、カテゴリ固有のオブジェクト検出器をカテゴリに依存しない、オブジェクト固有の検出器(トラッカー)にオンザフライで効率的に変換します。さらに、テスト時には、同じネットワークを検出と追跡に適用できるため、2つのタスクに対する統一されたアプローチが実現します。最近の2つの大規模追跡ベンチマーク(OxUvAとGOT、外部データを使用)で最新の結果を達成しています。マスク予測ブランチを追加するだけで、このアプローチでは、追跡対象オブジェクトのインスタンスセグメンテーションマスクを作成できます。最初のフレームではボックスレベルの情報のみを使用しますが、DAVIS '17ビデオオブジェクトセグメンテーションベンチマークで評価されるように、この方法は高品質のマスクを出力します。
Object tracking can be formulated as "finding the right object in a video". We observe that recent approaches for class-agnostic tracking tend to focus on the "finding" part, but largely overlook the "object" part of the task, essentially doing a template matching over a frame in a sliding-window. In contrast, class-specific trackers heavily rely on object priors in the form of category-specific object detectors. In this work, we re-purpose category-specific appearance models into a generic objectness prior. Our approach converts a category-specific object detector into a category-agnostic, object-specific detector (i.e. a tracker) efficiently, on the fly. Moreover, at test time the same network can be applied to detection and tracking, resulting in a unified approach for the two tasks. We achieve state-of-the-art results on two recent large-scale tracking benchmarks (OxUvA and GOT, using external data). By simply adding a mask prediction branch, our approach is able to produce instance segmentation masks for the tracked object. Despite only using box-level information on the first frame, our method outputs high-quality masks, as evaluated on the DAVIS '17 video object segmentation benchmark.