arXiv reaDer
参照ボックスによるマルチスペクトル歩行者検出 制約付き交差注意とモダリティ バランスの取れた最適化
Multispectral Pedestrian Detection via Reference Box Constrained Cross Attention and Modality Balanced Optimization
マルチスペクトル歩行者検出は、多くの 24 時間体制のアプリケーションにとって重要なタスクです。これは、可視モダリティと熱モダリティが、特に低照度条件下で補完的な情報を提供できるためです。利用可能なマルチスペクトル歩行者検出器で手作業で設計されたコンポーネントの影響を減らすために、変形可能な DETR をマルチモーダル パラダイムに拡張する MultiSpectral 歩行者検出 TRansformer (MS-DETR) を提案します。マルチモーダル学習プロセスを容易にするために、参照ボックス制約付き交差注意 (RCCA) モジュールが最初にマルチモーダル Transformer デコーダーに導入されます。と熱モダリティ。さまざまなモダリティの寄与のバランスをさらに取るために、モダリティ バランスのとれた最適化戦略を設計します。これは、3 つのブランチのインスタンス レベルの重みを適応的に調整することで、デコーダのスロットを整列させます。当社のエンドツーエンドの MS-DETR は、困難な KAIST および CVC-14 ベンチマーク データセットで優れたパフォーマンスを示しています。
Multispectral pedestrian detection is an important task for many around-the-clock applications, since the visible and thermal modalities can provide complementary information especially under low light conditions. To reduce the influence of hand-designed components in available multispectral pedestrian detectors, we propose a MultiSpectral pedestrian DEtection TRansformer (MS-DETR), which extends deformable DETR to multi-modal paradigm. In order to facilitate the multi-modal learning process, a Reference box Constrained Cross-Attention (RCCA) module is firstly introduced to the multi-modal Transformer decoder, which takes fusion branch together with the reference boxes as intermediaries to enable the interaction of visible and thermal modalities. To further balance the contribution of different modalities, we design a modality-balanced optimization strategy, which aligns the slots of decoders by adaptively adjusting the instance-level weight of three branches. Our end-to-end MS-DETR shows superior performance on the challenging KAIST and CVC-14 benchmark datasets.
updated: Wed Feb 01 2023 07:45:10 GMT+0000 (UTC)
published: Wed Feb 01 2023 07:45:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト