このホワイトペーパーでは、相補的な視覚および熱赤外線データ(RGBT追跡)を使用して、悪条件および困難な状況で堅牢な視覚追跡を実行する方法を調査します。堅牢なRGBT追跡のためのqualityaware Feature Aggregation Network(FANet)と呼ばれる新しいディープネットワークアーキテクチャを提案します。既存のRGBTトラッカーとは異なり、FANetは各モダリティ内の階層的な深い機能を集約し、変形、低照度、背景の乱雑さ、オクルージョンによって引き起こされる大幅な外観変化の課題に対処します。特に、最大プーリングの操作を使用して、これらの階層および多重解像度の機能を同じ解像度の均一な空間に変換し、1x1の畳み込み操作を使用して機能の次元を圧縮し、より効果的な階層的な機能の集約を実現します。 RGBモダリティと熱モダリティ間の相互作用をモデル化するために、信頼性に基づいてさまざまなモダリティの機能を統合する適応集約サブネットワークを入念に設計し、低品質のソースによって導入されるノイズ効果を軽減できます。 FANet全体は、エンドツーエンドの方法でトレーニングされます。大規模なベンチマークデータセットに関する広範な実験により、他の最先端のRGBT追跡方法に対する高精度のパフォーマンスが実証されています。
This paper investigates how to perform robust visual tracking in adverse and challenging conditions using complementary visual and thermal infrared data (RGBT tracking). We propose a novel deep network architecture called qualityaware Feature Aggregation Network (FANet) for robust RGBT tracking. Unlike existing RGBT trackers, our FANet aggregates hierarchical deep features within each modality to handle the challenge of significant appearance changes caused by deformation, low illumination, background clutter and occlusion. In particular, we employ the operations of max pooling to transform these hierarchical and multi-resolution features into uniform space with the same resolution, and use 1x1 convolution operation to compress feature dimensions to achieve more effective hierarchical feature aggregation. To model the interactions between RGB and thermal modalities, we elaborately design an adaptive aggregation subnetwork to integrate features from different modalities based on their reliabilities and thus are able to alleviate noise effects introduced by low-quality sources. The whole FANet is trained in an end-to-end manner. Extensive experiments on large-scale benchmark datasets demonstrate the high-accurate performance against other state-of-the-art RGBT tracking methods.