arXiv reaDer
熱赤外線追跡のための教師なしクロスモーダル蒸留
Unsupervised Cross-Modal Distillation for Thermal Infrared Tracking
畳み込みニューラルネットワークによって学習されたターゲット表現は、熱赤外線(TIR)追跡で重要な役割を果たします。現在、最高のパフォーマンスを発揮するTIRトラッカーのほとんどは、RGBデータでトレーニングされたモデルによって学習された表現を使用しています。ただし、この表現ではTIRモダリティ自体の情報が考慮されていないため、TIR追跡のパフォーマンスが制限されます。この問題を解決するために、大量のラベルなしペアRGB-TIRデータでクロスモーダル蒸留(CMD)を使用してRGBモダリティからTIRモダリティの表現を抽出することを提案します。ベースライントラッカーの2分岐アーキテクチャ、つまりDiMPを利用して、トラッカーの2つのコンポーネントで動作するクロスモーダル蒸留を行います。具体的には、一方のブランチを教師モジュールとして使用して、モデルによって学習された表現をもう一方のブランチに抽出します。 RGBモダリティの強力なモデルの恩恵を受けて、クロスモーダル蒸留は、TIR追跡を促進するためのTIR固有の表現を学習できます。提案されたアプローチは、一般的で独立したコンポーネントとして、さまざまなベースライントラッカーに簡単に組み込むことができます。さらに、ペアのRGB画像とTIR画像のセマンティックコヒーレンスは、クロスモーダル知識伝達の蒸留損失の教師あり信号として利用されます。実際には、教師なし方法でトレーニングするための同じセマンティクスを持つペアのRGB-TIRパッチを生成するために、3つの異なるアプローチが検討されています。ラベルのないトレーニングデータをさらに大規模に拡張するのは簡単です。 LSOTB-TIRデータセットとPTB-TIRデータセットに関する広範な実験は、提案されたクロスモーダル蒸留法がRGBモダリティから転送されたTIR固有のターゲット表現を効果的に学習することを示しています。当社のトラッカーは、それぞれ2.3%の成功、2.7%の精度、および2.5%の正規化された精度の絶対ゲインを達成することにより、ベースライントラッカーよりも優れています。
The target representation learned by convolutional neural networks plays an important role in Thermal Infrared (TIR) tracking. Currently, most of the top-performing TIR trackers are still employing representations learned by the model trained on the RGB data. However, this representation does not take into account the information in the TIR modality itself, limiting the performance of TIR tracking. To solve this problem, we propose to distill representations of the TIR modality from the RGB modality with Cross-Modal Distillation (CMD) on a large amount of unlabeled paired RGB-TIR data. We take advantage of the two-branch architecture of the baseline tracker, i.e. DiMP, for cross-modal distillation working on two components of the tracker. Specifically, we use one branch as a teacher module to distill the representation learned by the model into the other branch. Benefiting from the powerful model in the RGB modality, the cross-modal distillation can learn the TIR-specific representation for promoting TIR tracking. The proposed approach can be incorporated into different baseline trackers conveniently as a generic and independent component. Furthermore, the semantic coherence of paired RGB and TIR images is utilized as a supervised signal in the distillation loss for cross-modal knowledge transfer. In practice, three different approaches are explored to generate paired RGB-TIR patches with the same semantics for training in an unsupervised way. It is easy to extend to an even larger scale of unlabeled training data. Extensive experiments on the LSOTB-TIR dataset and PTB-TIR dataset demonstrate that our proposed cross-modal distillation method effectively learns TIR-specific target representations transferred from the RGB modality. Our tracker outperforms the baseline tracker by achieving absolute gains of 2.3% Success, 2.7% Precision, and 2.5% Normalized Precision respectively.
updated: Sat Jul 31 2021 09:19:59 GMT+0000 (UTC)
published: Sat Jul 31 2021 09:19:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト