arXiv reaDer
特異性を維持するRGB-D顕著性検出
Specificity-preserving RGB-D Saliency Detection
RGBおよび深度画像での顕著な物体検出(SOD)は、その有効性と深度キューを便利にキャプチャできるようになったため、ますます多くの研究関心を集めています。既存のRGB-DSODモデルは通常、2つのモダリティ(つまり、RGBと深度)から共有表現を学習するために異なる融合戦略を採用していますが、モダリティ固有の特性を保持する方法を明示的に検討する方法はほとんどありません。この研究では、SPNet}(特異性保存ネットワーク)と呼ばれる新しいフレームワークを提案します。これは、共有情報とモダリティ固有のプロパティ(特異性など)の両方を調査することでSODのパフォーマンスにメリットをもたらします。具体的には、2つのモダリティ固有のネットワークと共有学習ネットワークを採用して、それぞれ個別および共有の顕著性予測マップを生成することを提案します。共有学習ネットワークでクロスモーダル機能を効果的に融合するために、クロスエンハンスド統合モジュール(CIM)を提案し、融合した機能を次のレイヤーに伝播してクロスレベル情報を統合します。さらに、SODパフォーマンスを向上させるための豊富な補完的なマルチモーダル情報をキャプチャするために、個々のデコーダーからのモダリティ固有の機能を共有デコーダーに統合するマルチモーダル機能集約(MFA)モジュールを提案します。スキップ接続を使用することにより、エンコーダー層とデコーダー層の間の階層機能を完全に組み合わせることができます。広範な実験により、私たちの〜\ ours〜は、6つの人気のあるRGB-DSODと3つのカモフラージュされたオブジェクト検出ベンチマークで最先端のアプローチよりも優れていることが実証されています。このプロジェクトは、https://github.com/taozh2017/SPNetで公開されています。
Salient object detection (SOD) on RGB and depth images has attracted more and more research interests, due to its effectiveness and the fact that depth cues can now be conveniently captured. Existing RGB-D SOD models usually adopt different fusion strategies to learn a shared representation from the two modalities (i.e. , RGB and depth), while few methods explicitly consider how to preserve modality-specific characteristics. In this study, we propose a novel framework, termed SPNet} (Specificity-preserving network), which benefits SOD performance by exploring both the shared information and modality-specific properties (e.g. , specificity). Specifically, we propose to adopt two modality-specific networks and a shared learning network to generate individual and shared saliency prediction maps, respectively. To effectively fuse cross-modal features in the shared learning network, we propose a cross-enhanced integration module (CIM) and then propagate the fused feature to the next layer for integrating cross-level information. Moreover, to capture rich complementary multi-modal information for boosting the SOD performance, we propose a multi-modal feature aggregation (MFA) module to integrate the modality-specific features from each individual decoder into the shared decoder. By using a skip connection, the hierarchical features between the encoder and decoder layers can be fully combined. Extensive experiments demonstrate that our~\ours~outperforms cutting-edge approaches on six popular RGB-D SOD and three camouflaged object detection benchmarks. The project is publicly available at: https://github.com/taozh2017/SPNet.
updated: Sun Jan 09 2022 02:59:30 GMT+0000 (UTC)
published: Wed Aug 18 2021 14:14:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト