斬新で、速く、効率的で、正確で、堅牢なシャムのビジュアルトラッカーであるFEARを紹介します。デュアルテンプレート表現と呼ばれるオブジェクトモデル適応用のアーキテクチャブロックと、モデルの柔軟性と効率を高めるためのピクセル単位の融合ブロックを紹介します。デュアルテンプレートモジュールは、単一の学習可能なパラメータのみで時間情報を組み込みますが、ピクセル単位の融合ブロックは、標準の相関モジュールと比較して、より少ないパラメータでより識別力のある特徴をエンコードします。洗練されたバックボーンを新しいモジュールにプラグインすることにより、FEAR-MおよびFEAR-Lトラッカーは、精度と効率の両方で、いくつかの学術的ベンチマークでほとんどのSiamesetrackerを上回ります。軽量バックボーンを採用した最適化バージョンのFEAR-XSは、最新の結果に近い状態を維持しながら、現在のシャムトラッカーよりも10倍以上高速な追跡を提供します。 FEAR-XSトラッカーは、LightTrack [62]より2.4倍小さく、4.3倍高速で、優れた精度を備えています。さらに、エネルギー消費量と実行速度のベンチマークを導入することにより、モデル効率の定義を拡張します。ソースコード、事前トレーニング済みモデル、および評価プロトコルは、リクエストに応じて利用可能になります
We present FEAR, a novel, fast, efficient, accurate, and robust Siamese visual tracker. We introduce an architecture block for object model adaption, called dual-template representation, and a pixel-wise fusion block to achieve extra flexibility and efficiency of the model. The dual-template module incorporates temporal information with only a single learnable parameter, while the pixel-wise fusion block encodes more discriminative features with fewer parameters compared to standard correlation modules. By plugging-in sophisticated backbones with the novel modules, FEAR-M and FEAR-L trackers surpass most Siamesetrackers on several academic benchmarks in both accuracy and efficiencies. Employed with the lightweight backbone, the optimized version FEAR-XS offers more than 10 times faster tracking than current Siamese trackers while maintaining near state-of-the-art results. FEAR-XS tracker is 2.4x smaller and 4.3x faster than LightTrack [62] with superior accuracy. In addition, we expand the definition of the model efficiency by introducing a benchmark on energy consumption and execution speed. Source code, pre-trained models, and evaluation protocol will be made available upon request