RGBとTIRモダリティをRGB-Tトラッキングで融合するためのエンドツーエンドのトラッキングフレームワークを提案します。当社のベースライントラッカーはDiMP(差別モデル予測)であり、差別的損失を使用してエンドツーエンドでトレーニングされた慎重に設計されたターゲット予測ネットワークを採用しています。 DiMPの各主要コンポーネント、つまり特徴抽出器、ターゲット推定ネットワーク、分類器のモダリティフュージョンの有効性を分析します。ピクセルレベル、機能レベル、応答レベルなど、フレームワークのさまざまなレベルで機能するいくつかの融合メカニズムを検討します。トラッカーはエンドツーエンドの方法でトレーニングされているため、コンポーネントは両方のモダリティからの情報を融合する方法を学習できます。モデルをトレーニングするデータとして、注釈付きRGB追跡データセット(GOT-10k)を考慮し、画像から画像への変換アプローチを使用してペアのTIR画像を合成することにより、大規模なRGB-Tデータセットを生成します。 VOT-RGBT2019データセットとRGBT210データセットで広範な実験を行い、各モデルコンポーネントでの各タイプのモダリティフュージングを評価します。結果は、提案された融合メカニズムが単一モダリティの対応物の性能を改善することを示しています。 IoU-Netとモデル予測子の両方で機能レベルで融合すると、VOT-RGBT2019データセットで0.391のEAOスコアが得られ、最良の結果が得られます。この融合メカニズムを使用して、RGBT210データセットで最先端のパフォーマンスを実現します。
We propose an end-to-end tracking framework for fusing the RGB and TIR modalities in RGB-T tracking. Our baseline tracker is DiMP (Discriminative Model Prediction), which employs a carefully designed target prediction network trained end-to-end using a discriminative loss. We analyze the effectiveness of modality fusion in each of the main components in DiMP, i.e. feature extractor, target estimation network, and classifier. We consider several fusion mechanisms acting at different levels of the framework, including pixel-level, feature-level and response-level. Our tracker is trained in an end-to-end manner, enabling the components to learn how to fuse the information from both modalities. As data to train our model, we generate a large-scale RGB-T dataset by considering an annotated RGB tracking dataset (GOT-10k) and synthesizing paired TIR images using an image-to-image translation approach. We perform extensive experiments on VOT-RGBT2019 dataset and RGBT210 dataset, evaluating each type of modality fusing on each model component. The results show that the proposed fusion mechanisms improve the performance of the single modality counterparts. We obtain our best results when fusing at the feature-level on both the IoU-Net and the model predictor, obtaining an EAO score of 0.391 on VOT-RGBT2019 dataset. With this fusion mechanism we achieve the state-of-the-art performance on RGBT210 dataset.