arXiv reaDer
マルチスペクトルオブジェクト検出のためのクロスモダリティフュージョントランス
Cross-Modality Fusion Transformer for Multispectral Object Detection
マルチスペクトル画像ペアは、組み合わされた情報を提供し、オープンワールドでのオブジェクト検出アプリケーションの信頼性と堅牢性を高めます。さまざまなモダリティを十分に活用するために、このホワイトペーパーではCross-Modality Fusion Transformer(CFT)という名前のシンプルで効果的なクロスモダリティ機能の融合アプローチを紹介します。トランスフォーマースキームによって導かれる以前のCNNベースの作業とは異なり、私たちのネットワークは長距離の依存関係を学習し、特徴抽出段階でグローバルなコンテキスト情報を統合します。さらに重要なことに、トランスの自己注意を活用することで、ネットワークはモダリティ内とモダリティ間の融合を自然に実行し、RGBドメインと熱ドメイン間の潜在的な相互作用を堅牢にキャプチャできるため、マルチスペクトルオブジェクト検出のパフォーマンスが大幅に向上します。複数のデータセットに関する広範な実験とアブレーション研究は、私たちのアプローチが効果的であり、最先端の検出性能を達成していることを示しています。コードとモデルはhttps://github.com/DocF/multispectral-object-detectionで入手できます。
Multispectral image pairs can provide the combined information, making object detection applications more reliable and robust in the open world. To fully exploit the different modalities, we present a simple yet effective cross-modality feature fusion approach, named Cross-Modality Fusion Transformer (CFT) in this paper. Unlike prior CNNs-based works, guided by the transformer scheme, our network learns long-range dependencies and integrates global contextual information in the feature extraction stage. More importantly, by leveraging the self attention of the transformer, the network can naturally carry out simultaneous intra-modality and inter-modality fusion, and robustly capture the latent interactions between RGB and Thermal domains, thereby significantly improving the performance of multispectral object detection. Extensive experiments and ablation studies on multiple datasets demonstrate that our approach is effective and achieves state-of-the-art detection performance. Our code and models are available at https://github.com/DocF/multispectral-object-detection.
updated: Wed Dec 01 2021 08:04:08 GMT+0000 (UTC)
published: Sat Oct 30 2021 15:34:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト