近年、深層学習ベースの視覚オブジェクトトラッカーが徹底的に研究されていますが、ターゲットのオクルージョンや高速モーションの処理は依然として困難です。この作業では、ターゲットの自然言語(NL)記述の条件付けにより、長期不変性に関する情報が提供されるため、典型的な追跡の課題に対処できると主張します。ただし、外観ベースの追跡の強みを言語モダリティと組み合わせる定式化を導き出すのは簡単ではありません。 NL記述を利用できる、検出による新しい深層追跡定式化を提案します。指定されたNL記述に関連する領域は、トラッカーの検出フェーズ中に提案ネットワークによって生成されます。次に、LSTMベースのトラッカーは、NLベースの検出フェーズで提案された領域からターゲットの更新を予測します。ベンチマークでは、この方法は最先端のトラッカーと競合しますが、明確で正確な言語注釈を備えたターゲットで他のすべてのトラッカーよりも優れています。また、バウンディングボックスなしで初期化する場合、最先端のNLトラッカーよりも優れています。このメソッドは、単一のGPUで30 fps以上で実行されます。
In recent years, deep-learning-based visual object trackers have been studied thoroughly, but handling occlusions and/or rapid motion of the target remains challenging. In this work, we argue that conditioning on the natural language (NL) description of a target provides information for longer-term invariance, and thus helps cope with typical tracking challenges. However, deriving a formulation to combine the strengths of appearance-based tracking with the language modality is not straightforward. We propose a novel deep tracking-by-detection formulation that can take advantage of NL descriptions. Regions that are related to the given NL description are generated by a proposal network during the detection phase of the tracker. Our LSTM based tracker then predicts the update of the target from regions proposed by the NL based detection phase. In benchmarks, our method is competitive with state of the art trackers, while it outperforms all other trackers on targets with unambiguous and precise language annotations. It also beats the state-of-the-art NL tracker when initializing without a bounding box. Our method runs at over 30 fps on a single GPU.