arXiv reaDer
C^2Former: RGB 赤外線物体検出用の校正済み相補トランスフォーマー
C^2Former: Calibrated and Complementary Transformer for RGB-Infrared Object Detection
可視 (RGB) および赤外線 (IR) 画像での物体検出は、24 時間アプリケーション向けの堅牢な検出を容易にする新たなソリューションとして、近年大きな注目を集めています。 IR 画像の助けにより、RGB-IR を組み合わせた情報を使用することで、物体検出器は実際のアプリケーションにおいてより信頼性が高く、堅牢になりました。しかし、既存の方法には依然としてモダリティの誤ったキャリブレーションと融合の不正確さの問題が存在します。 Transformer には、異なる特徴間のペア相関をモデル化する強力な機能があるため、この論文では、これら 2 つの問題に同時に対処するために、C^2Former と呼ばれる新しい校正済み相補型 Transformer を提案します。 C^2Former では、RGB モダリティと IR モダリティの間のクロスアテンション関係を学習することで、調整された補完的な特徴を取得するためのモダリティ間クロスアテンション (ICA) モジュールを設計します。 ICA でのグローバル アテンションの計算によって発生する計算コストを削減するために、適応特徴サンプリング (AFS) モジュールが導入され、特徴マップの次元が削減されます。 C^2Former は機能ドメインで実行されるため、バックボーン ネットワークを介して既存の RGB-IR オブジェクト検出器に組み込むことができます。したがって、C^2Former を組み込んだ 1 つの 1 段階物体検出器と 1 つの 2 段階物体検出器が構築され、その有効性と多用途性が評価されます。 DroneVehicle および KAIST RGB-IR データセットに関する広範な実験により、私たちの方法が RGB-IR 相補情報を完全に利用し、堅牢な検出結果を達成できることを検証しました。コードは https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git で入手できます。
Object detection on visible (RGB) and infrared (IR) images, as an emerging solution to facilitate robust detection for around-the-clock applications, has received extensive attention in recent years. With the help of IR images, object detectors have been more reliable and robust in practical applications by using RGB-IR combined information. However, existing methods still suffer from modality miscalibration and fusion imprecision problems. Since transformer has the powerful capability to model the pairwise correlations between different features, in this paper, we propose a novel Calibrated and Complementary Transformer called C^2Former to address these two problems simultaneously. In C^2Former, we design an Inter-modality Cross-Attention (ICA) module to obtain the calibrated and complementary features by learning the cross-attention relationship between the RGB and IR modality. To reduce the computational cost caused by computing the global attention in ICA, an Adaptive Feature Sampling (AFS) module is introduced to decrease the dimension of feature maps. Because C^2Former performs in the feature domain, it can be embedded into existed RGB-IR object detectors via the backbone network. Thus, one single-stage and one two-stage object detector both incorporating our C^2Former are constructed to evaluate its effectiveness and versatility. With extensive experiments on the DroneVehicle and KAIST RGB-IR datasets, we verify that our method can fully utilize the RGB-IR complementary information and achieve robust detection results. The code is available at https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git.
updated: Sat Jul 15 2023 12:35:42 GMT+0000 (UTC)
published: Wed Jun 28 2023 12:52:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト