arXiv reaDer
RGB-D顕著な物体検出およびそれ以降のシャムネットワーク
Siamese Network for RGB-D Salient Object Detection and Beyond
既存のRGB-D顕著なオブジェクト検出(SOD)モデルは通常、RGBと深度を独立した情報として扱い、それぞれから特徴を抽出するための個別のネットワークを設計します。このようなスキームは、限られた量のトレーニングデータや、精巧に設計されたトレーニングプロセスへの過度の依存によって簡単に制約される可能性があります。 RGBと深度モダリティが実際に顕著なオブジェクトを区別する際に特定の共通性を示すという観察に触発されて、新しい共同学習と高密度協調融合(JL-DCF)アーキテクチャは、RGBと深度入力の両方から共有ネットワークバックボーンを介して学習するように設計されています。シャム建築。この論文では、2つの効果的なコンポーネントを提案します:共同学習(JL)と高密度協調融合(DCF)。 JLモジュールは、シャムネットワークを介したクロスモーダル共通性を活用することにより、堅牢な顕著性特徴学習を提供します。一方、DCFモジュールは、補完的な特徴発見のために導入されています。 5つの一般的なメトリックを使用した包括的な実験は、設計されたフレームワークが優れた一般化を備えた堅牢なRGB-D顕著性検出器を生成することを示しています。その結果、JL-DCFは、7つの困難なデータセット全体で、最先端のモデルを平均で約2.0%(最大Fメジャー)向上させます。さらに、JL-DCFは、RGB-T(熱赤外線)SODやビデオSODなど、他の関連するマルチモーダル検出タスクに容易に適用でき、最先端の方法と同等またはそれ以上のパフォーマンスを実現することを示します。また、JL-DCFをRGB-Dセマンティックセグメンテーションフィールドにリンクし、RGB-DSODのタスクでいくつかのセマンティックセグメンテーションモデルを上回る機能を示します。これらの事実は、提案されたフレームワークがさまざまなアプリケーションに潜在的なソリューションを提供し、クロスモーダル相補性タスクへのより多くの洞察を提供できることをさらに確認します。
Existing RGB-D salient object detection (SOD) models usually treat RGB and depth as independent information and design separate networks for feature extraction from each. Such schemes can easily be constrained by a limited amount of training data or over-reliance on an elaborately designed training process. Inspired by the observation that RGB and depth modalities actually present certain commonality in distinguishing salient objects, a novel joint learning and densely cooperative fusion (JL-DCF) architecture is designed to learn from both RGB and depth inputs through a shared network backbone, known as the Siamese architecture. In this paper, we propose two effective components: joint learning (JL), and densely cooperative fusion (DCF). The JL module provides robust saliency feature learning by exploiting cross-modal commonality via a Siamese network, while the DCF module is introduced for complementary feature discovery. Comprehensive experiments using five popular metrics show that the designed framework yields a robust RGB-D saliency detector with good generalization. As a result, JL-DCF significantly advances the state-of-the-art models by an average of ~2.0% (max F-measure) across seven challenging datasets. In addition, we show that JL-DCF is readily applicable to other related multi-modal detection tasks, including RGB-T (thermal infrared) SOD and video SOD, achieving comparable or even better performance against state-of-the-art methods. We also link JL-DCF to the RGB-D semantic segmentation field, showing its capability of outperforming several semantic segmentation models on the task of RGB-D SOD. These facts further confirm that the proposed framework could offer a potential solution for various applications and provide more insight into the cross-modal complementarity task.
updated: Fri Apr 16 2021 05:52:03 GMT+0000 (UTC)
published: Wed Aug 26 2020 06:01:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト