顕著なオブジェクト検出 (SOD) は、シーン内で最も目立つオブジェクトを区別することに重点を置いています。ただし、ほとんどの関連作品は RGB 画像に基づいており、大量の有用な情報が失われています。したがって、熱技術の成熟に伴い、RGB-T (RGB-Thermal) マルチモダリティ タスクがますます注目を集めています。熱赤外線画像には、SOD 予測の精度を向上させるために使用できる重要な情報が含まれています。そのためには、マルチモーダルな情報を統合し、ノイズを抑える方法が重要です。この論文では、Interactive Context-Aware Network (ICANet) と呼ばれる新しいネットワークを提案します。これには、クロスモーダルおよびクロススケールの融合を効果的に実行できる 3 つのモジュールが含まれています。ハイブリッド機能融合 (HFF) モジュールを設計して、2 種類の機能抽出を利用する 2 つのモダリティの機能を統合します。 Multi-Scale Attention Reinforcement (MSAR) ブロックと Upper Fusion (UF) ブロックは、さまざまなレベルの特徴を収束させて予測マップを生成するクロススケール フュージョンを担当します。また、予測とグラウンド トゥルース (GT) の間のコンテンツ ロスを計算するために、新しい Context-Aware Multi-Supervised Network (CAMSNet) を作成します。実験により、当社のネットワークが最先端の RGB-T SOD メソッドに対して有利に機能することが証明されています。
Salient object detection (SOD) focuses on distinguishing the most conspicuous objects in the scene. However, most related works are based on RGB images, which lose massive useful information. Accordingly, with the maturity of thermal technology, RGB-T (RGB-Thermal) multi-modality tasks attain more and more attention. Thermal infrared images carry important information which can be used to improve the accuracy of SOD prediction. To accomplish it, the methods to integrate multi-modal information and suppress noises are critical. In this paper, we propose a novel network called Interactive Context-Aware Network (ICANet). It contains three modules that can effectively perform the cross-modal and cross-scale fusions. We design a Hybrid Feature Fusion (HFF) module to integrate the features of two modalities, which utilizes two types of feature extraction. The Multi-Scale Attention Reinforcement (MSAR) and Upper Fusion (UF) blocks are responsible for the cross-scale fusion that converges different levels of features and generate the prediction maps. We also raise a novel Context-Aware Multi-Supervised Network (CAMSNet) to calculate the content loss between the prediction and the ground truth (GT). Experiments prove that our network performs favorably against the state-of-the-art RGB-T SOD methods.