arXiv reaDer
平行移動、拡大縮小、回転: クロスモーダル アライメントと RGB 赤外線車両検出の融合
Translation, Scale and Rotation: Cross-Modal Alignment Meets RGB-Infrared Vehicle Detection
物体検出、特に可視画像と赤外線画像にマルチスペクトル データを統合することは、近年大きな注目を集めています。可視 (RGB) 画像と赤外線 (IR) 画像は、光の変化を処理するための補完的な情報を提供できるため、ペアになった画像は、マルチスペクトル歩行者検出、RGB-IR 群衆カウント、RGB-IR 顕著な物体検出などの多くの分野で使用されます。自然の RGB-IR 画像と比較すると、航空 RGB-IR 画像での検出は、同じオブジェクトの位置、サイズ、および角度のずれとして現れる、クロスモーダルの弱いミスアライメントの問題に悩まされていることがわかります。この論文では、主に空中RGB-IR画像におけるクロスモーダルの弱いミスアライメントの課題に対処します。具体的には、まず、弱い位置ずれの問題の原因を説明し、分析します。次に、Translation-Scale-Rotation Alignment (TSRA) モジュールを提案して、これら 2 つのモダリティから特徴マップを調整することで問題に対処します。このモジュールは、アライメント プロセスを通じて 2 つのモダリティ オブジェクト間の偏差を予測し、Modality-Selection (MS) 戦略を利用してアライメントのパフォーマンスを向上させます。最後に、TSRA モジュールに基づく 2 ストリーム フィーチャ アライメント検出器 (TSFADet) は、航空画像の RGB-IR オブジェクト検出用に構築されます。パブリック DroneVehicle データセットでの包括的な実験により、私たちの方法がクロスモーダルのミスアライメントの影響を減らし、堅牢な検出結果を達成することを確認します。
Integrating multispectral data in object detection, especially visible and infrared images, has received great attention in recent years. Since visible (RGB) and infrared (IR) images can provide complementary information to handle light variations, the paired images are used in many fields, such as multispectral pedestrian detection, RGB-IR crowd counting and RGB-IR salient object detection. Compared with natural RGB-IR images, we find detection in aerial RGB-IR images suffers from cross-modal weakly misalignment problems, which are manifested in the position, size and angle deviations of the same object. In this paper, we mainly address the challenge of cross-modal weakly misalignment in aerial RGB-IR images. Specifically, we firstly explain and analyze the cause of the weakly misalignment problem. Then, we propose a Translation-Scale-Rotation Alignment (TSRA) module to address the problem by calibrating the feature maps from these two modalities. The module predicts the deviation between two modality objects through an alignment process and utilizes Modality-Selection (MS) strategy to improve the performance of alignment. Finally, a two-stream feature alignment detector (TSFADet) based on the TSRA module is constructed for RGB-IR object detection in aerial images. With comprehensive experiments on the public DroneVehicle datasets, we verify that our method reduces the effect of the cross-modal misalignment and achieve robust detection results.
updated: Wed Sep 28 2022 03:06:18 GMT+0000 (UTC)
published: Wed Sep 28 2022 03:06:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト