マルチモーダルセンサーの人気により、可視熱(RGB-T)オブジェクト追跡は、オブジェクトの温度情報のガイダンスを使用して、堅牢なパフォーマンスと幅広いアプリケーションシナリオを実現することです。ただし、ペアのトレーニングサンプルがないことが、RGB-Tトラッキングの能力を解き放つための主なボトルネックです。高品質のRGB-Tシーケンスを収集するのは面倒なので、最近のベンチマークはテストシーケンスのみを提供します。この論文では、170万の高解像度(1920×1080ピクセル)フレームペアを持つ500のシーケンスを含む、可視熱UAV追跡(VTUAV)の多様性が高い大規模なベンチマークを構築します。さらに、多様なカテゴリとシーンを備えた包括的なアプリケーション(短期追跡、長期追跡、およびセグメンテーションマスク予測)が徹底的な評価のために考慮されます。さらに、チャレンジ固有のトラッカーの可能性を活用するためにフレームレベルの属性が提供される、粗い属性から細かい属性への注釈を提供します。さらに、さまざまなレベルのRGB-Tデータを融合するHierarchical Multi-modal Fusion Tracker(HMFT)という名前の新しいRGB-Tベースラインを設計します。 HMFTの有効性とさまざまな融合タイプの補完を明らかにするために、いくつかのデータセットで多数の実験が行われます。プロジェクトはこちらから入手できます。
With the popularity of multi-modal sensors, visible-thermal (RGB-T) object tracking is to achieve robust performance and wider application scenarios with the guidance of objects' temperature information. However, the lack of paired training samples is the main bottleneck for unlocking the power of RGB-T tracking. Since it is laborious to collect high-quality RGB-T sequences, recent benchmarks only provide test sequences. In this paper, we construct a large-scale benchmark with high diversity for visible-thermal UAV tracking (VTUAV), including 500 sequences with 1.7 million high-resolution (1920 × 1080 pixels) frame pairs. In addition, comprehensive applications (short-term tracking, long-term tracking and segmentation mask prediction) with diverse categories and scenes are considered for exhaustive evaluation. Moreover, we provide a coarse-to-fine attribute annotation, where frame-level attributes are provided to exploit the potential of challenge-specific trackers. In addition, we design a new RGB-T baseline, named Hierarchical Multi-modal Fusion Tracker (HMFT), which fuses RGB-T data in various levels. Numerous experiments on several datasets are conducted to reveal the effectiveness of HMFT and the complement of different fusion types. The project is available at here.