Cross-modality Discrepant Interaction Network for RGB-D Salient Object Detection
デプスマップの人気と宣伝により、顕著なオブジェクト検出(SOD)に新しい活力と活力がもたらされ、RGB画像と深度からのクロスモダリティ機能をより適切に統合する方法に主に焦点を当てた大量のRGB-DSODアルゴリズムが提案されました。地図。機能エンコーダーでのクロスモダリティの相互作用の場合、既存の方法では、RGBと深度モダリティを無差別に扱うか、RGBブランチの補助情報として深度キューのみを習慣的に利用します。それらとは異なり、2つのモダリティのステータスを再検討し、RGB-D SOD用の新しいクロスモダリティ不一致相互作用ネットワーク(CDINet)を提案します。これは、異なるレイヤーの特徴表現に従って2つのモダリティの依存関係を差分モデル化します。この目的のために、2つのコンポーネントが効果的なクロスモダリティ相互作用を実装するように設計されています。1)RGB誘導詳細拡張(RDE)モジュールは、RGBモダリティを活用して、低レベルエンコーダステージの深度機能の詳細を拡張します。 2)深度誘導セマンティックエンハンスメント(DSE)モジュールは、オブジェクトの配置と深度機能の内部一貫性を高レベルエンコーダーステージのRGBブランチに転送します。さらに、Dense Decoding Reconstruction(DDR)構造も設計します。これは、マルチレベルエンコーダー機能を組み合わせて機能デコードのスキップ接続をアップグレードすることにより、セマンティックブロックを構築します。 5つのベンチマークデータセットでの広範な実験は、私たちのネットワークが15の最先端の方法を定量的および定性的に上回っていることを示しています。私たちのコードはで公開されています。
The popularity and promotion of depth maps have brought new vigor and vitality into salient object detection (SOD), and a mass of RGB-D SOD algorithms have been proposed, mainly concentrating on how to better integrate cross-modality features from RGB image and depth map. For the cross-modality interaction in feature encoder, existing methods either indiscriminately treat RGB and depth modalities, or only habitually utilize depth cues as auxiliary information of the RGB branch. Different from them, we reconsider the status of two modalities and propose a novel Cross-modality Discrepant Interaction Network (CDINet) for RGB-D SOD, which differentially models the dependence of two modalities according to the feature representations of different layers. To this end, two components are designed to implement the effective cross-modality interaction: 1) the RGB-induced Detail Enhancement (RDE) module leverages RGB modality to enhance the details of the depth features in low-level encoder stage. 2) the Depth-induced Semantic Enhancement (DSE) module transfers the object positioning and internal consistency of depth features to the RGB branch in high-level encoder stage. Furthermore, we also design a Dense Decoding Reconstruction (DDR) structure, which constructs a semantic block by combining multi-level encoder features to upgrade the skip connection in the feature decoding. Extensive experiments on five benchmark datasets demonstrate that our network outperforms 15 state-of-the-art methods both quantitatively and qualitatively. Our code is publicly available at:
updated: Wed Aug 04 2021 11:24:42 GMT+0000 (UTC)
published: Wed Aug 04 2021 11:24:42 GMT+0000 (UTC)
