arXiv reaDer
RGB-D 顕著なオブジェクト検出のための階層型クロスモーダル トランスフォーマー
Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection
既存の RGB-D 顕著な物体検出 (SOD) メソッドのほとんどは、CNN ベースのパラダイムに従います。これは、CNN の自然な局所性のために、空間やモダリティ全体にわたる長期的な依存関係をモデル化することができません。ここでは、この問題に取り組むために、新しいマルチモーダル トランスフォーマーである Hierarchical Cross-modal Transformer (HCT) を提案します。 2 つのモダリティからすべてのパッチを直接接続する以前のマルチモーダル トランスフォーマーとは異なり、クロスモーダルの相補性を階層的に調査して、モダリティのギャップと位置合わせされていない領域の空間的な不一致を尊重します。具体的には、モーダル内自己注意を使用して補完的なグローバル コンテキストを探索し、空間的に整列されたモーダル間注意をローカルで測定して、モーダル間の相関関係を取得することを提案します。さらに、トランスフォーマー (FPT) 用の機能ピラミッド モジュールを提示して、有益なクロススケール統合を促進し、一貫性補完モジュールを提示して、マルチモーダル統合パスを解きほぐし、融合適応性を向上させます。多種多様な公開データセットでの包括的な実験により、私たちの設計の有効性と最先端のモデルに対する一貫した改善が検証されます。
Most of existing RGB-D salient object detection (SOD) methods follow the CNN-based paradigm, which is unable to model long-range dependencies across space and modalities due to the natural locality of CNNs. Here we propose the Hierarchical Cross-modal Transformer (HCT), a new multi-modal transformer, to tackle this problem. Unlike previous multi-modal transformers that directly connecting all patches from two modalities, we explore the cross-modal complementarity hierarchically to respect the modality gap and spatial discrepancy in unaligned regions. Specifically, we propose to use intra-modal self-attention to explore complementary global contexts, and measure spatial-aligned inter-modal attention locally to capture cross-modal correlations. In addition, we present a Feature Pyramid module for Transformer (FPT) to boost informative cross-scale integration as well as a consistency-complementarity module to disentangle the multi-modal integration path and improve the fusion adaptivity. Comprehensive experiments on a large variety of public datasets verify the efficacy of our designs and the consistent improvement over state-of-the-art models.
updated: Thu Feb 16 2023 03:23:23 GMT+0000 (UTC)
published: Thu Feb 16 2023 03:23:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト