arXiv reaDer
軽量RGB-D顕著なオブジェクト検出のためのミドルレベルフュージョン
Middle-level Fusion for Lightweight RGB-D Salient Object Detection
ほとんどの既存のRGB-D顕著なオブジェクト検出(SOD)モデルは、顕著なオブジェクトを正確に検出するために、大きな計算コストとメモリ消費を必要とします。これにより、これらのRGB-DSODモデルの実際のアプリケーションが制限されます。この問題に対処するために、この論文では新しい軽量RGB-DSODモデルを紹介します。通常2ストリームまたはシングルストリーム構造を採用するほとんどの既存のモデルとは異なり、中間レベルの融合構造が同時に可能であるという事実から、軽量RGB-DSODモデルを設計するために中間レベルの融合構造を採用することを提案します。モダリティ共有およびモダリティ固有の情報を2ストリーム構造として活用し、ネットワークのパラメーターをシングルストリーム構造として大幅に削減できます。この構造に基づいて、新しい情報認識マルチモーダル特徴融合(IMFF)モジュールは、クロスモーダル補完情報を効果的にキャプチャするように最初に設計されています。次に、新しい軽量の機能レベルと決定レベルの機能融合(LFDF)モジュールが設計され、より少ないパラメーターでさまざまな段階で機能レベルと決定レベルの顕著性情報を集約します。 IMFFおよびLFDFモジュールが中間レベルの融合構造に組み込まれているため、提案されたモデルのパラメーターはわずか390万で、33FPSで実行されます。さらに、いくつかのベンチマークデータセットでの実験結果は、いくつかの最先端の方法に対する提案された方法の有効性と優位性を検証します。
Most existing RGB-D salient object detection (SOD) models require large computational costs and memory consumption to accurately detect the salient objects. This limits the real-life applications of these RGB-D SOD models. To address this issue, a novel lightweight RGB-D SOD model is presented in this paper. Different from most existing models which usually employ the two-stream or single-stream structure, we propose to employ the middle-level fusion structure for designing lightweight RGB-D SOD model, due to the fact that the middle-level fusion structure can simultaneously exploit the modality-shared and modality-specific information as the two-stream structure and can significantly reduce the network's parameters as the single-stream structure. Based on this structure, a novel information-aware multi-modal feature fusion (IMFF) module is first designed to effectively capture the cross-modal complementary information. Then, a novel lightweight feature-level and decision-level feature fusion (LFDF) module is designed to aggregate the feature-level and the decision-level saliency information in different stages with less parameters. With IMFF and LFDF modules incorporated in the middle-level fusion structure, our proposed model has only 3.9M parameters and runs at 33 FPS. Furthermore, the experimental results on several benchmark datasets verify the effectiveness and superiority of the proposed method over some state-of-the-art methods.
updated: Thu May 06 2021 08:15:32 GMT+0000 (UTC)
published: Fri Apr 23 2021 11:37:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト