arXiv reaDer
マルチスペクトル歩行者検出のための弱整合クロスモーダル学習
Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection
  熱モダリティはカラー画像の補足情報を提供するため、マルチスペクトル歩行者検出は照明条件が悪い場合に大きな利点を示しています。ただし、実際のマルチスペクトルデータには位置シフトの問題があります。つまり、色と熱の画像のペアが厳密に位置合わせされていないため、1つのオブジェクトのモダリティが異なる位置になります。深層学習ベースの方法では、この問題により、CNNトレーニングの両方のモダリティとパズルの特徴マップを融合することが難しくなります。この論文では、弱く整列したマルチスペクトルデータをエンドツーエンドで処理するために、新しい整列領域CNN(AR-CNN)を提案します。まず、位置のずれをキャプチャし、2つのモダリティの領域機能を適応的に調整するために、領域機能調整(RFA)モジュールを設計します。第二に、より信頼性の高い特徴を選択し、役に立たない特徴を抑制するために特徴の再重み付けを実行する新しいマルチモーダル融合法を提示します。また、さまざまなデバイスやシステム設定の予期しないシフトパターンに対する堅牢性を向上させるための新しいRoIジッタ戦略を提案します。最後に、この方法は新しい種類のラベル付けに依存するため、各モダリティに一致するバウンディングボックスに、両方のモダリティでバウンディングボックスを見つけて関係を構築することにより、KAISTデータセットのラベルを手動で変更し、新しいKAISTペア注釈を提供します。既存のデータセットに対して広範な実験的検証が行われ、提案された方法の有効性と堅牢性が実証されています。コードとデータはhttps://github.com/luzhang16/AR-CNNで入手できます。
Multispectral pedestrian detection has shown great advantages under poor illumination conditions, since the thermal modality provides complementary information for the color image. However, real multispectral data suffers from the position shift problem, i.e. the color-thermal image pairs are not strictly aligned, making one object has different positions in different modalities. In deep learning based methods, this problem makes it difficult to fuse the feature maps from both modalities and puzzles the CNN training. In this paper, we propose a novel Aligned Region CNN (AR-CNN) to handle the weakly aligned multispectral data in an end-to-end way. Firstly, we design a Region Feature Alignment (RFA) module to capture the position shift and adaptively align the region features of the two modalities. Secondly, we present a new multimodal fusion method, which performs feature re-weighting to select more reliable features and suppress the useless ones. Besides, we propose a novel RoI jitter strategy to improve the robustness to unexpected shift patterns of different devices and system settings. Finally, since our method depends on a new kind of labelling: bounding boxes that match each modality, we manually relabel the KAIST dataset by locating bounding boxes in both modalities and building their relationships, providing a new KAIST-Paired Annotation. Extensive experimental validations on existing datasets are performed, demonstrating the effectiveness and robustness of the proposed method. Code and data are available at https://github.com/luzhang16/AR-CNN.
updated: Fri Oct 18 2019 11:57:50 GMT+0000 (UTC)
published: Wed Jan 09 2019 09:16:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト