arXiv reaDer
画像融合のためのクロスモダリティインタラクションを使用したグラフニューラルネットワークの学習
Learning a Graph Neural Network with Cross Modality Interaction for Image Fusion
赤外線画像と可視画像の融合は、マルチモダリティ画像技術の分野において重要な分岐点であることが徐々に証明されています。最近の開発では、研究者は融合画像の品質に焦点を当てるだけでなく、下流のタスクでのパフォーマンスも評価しています。それにもかかわらず、大多数の手法は、異なるモダリティからの相互学習にほとんど目を向けず、その結果、融合された画像には重要なディテールやテクスチャが欠けてしまいます。この問題を克服するために、私たちは、融合のためのクロスモダリティ間の対話型グラフ ニューラル ネットワーク (GNN) ベースのアーキテクチャ (IGNet と呼ばれます) を提案します。具体的には、最初にマルチスケール エクストラクターを適用して浅い特徴を実現します。これは、グラフ構造を構築するために必要な入力として使用されます。次に、グラフ相互作用モジュールは、赤外/可視ブランチの抽出された中間特徴をグラフ構造に構築できます。一方、2 つのブランチのグラフ構造はクロスモダリティとセマンティック学習のために相互作用するため、融合された画像は重要な特徴表現を維持し、下流タスクのパフォーマンスを向上させることができます。さらに、提案されたリーダーノードは、同じモダリティでの情報伝播を改善できます。最後に、すべてのグラフの特徴を結合して、結合結果を取得します。さまざまなデータセット (TNO、MFNet、M3FD) での広範な実験により、当社の IGNet は、比較した最先端のものよりも検出とセグメンテーションで平均 2.59% mAP@.5 および 7.77% mIoU 高いスコアを獲得しながら、視覚的に魅力的な融合画像を生成できることが実証されました。メソッド。提案されている IGNet のソース コードは、https://github.com/lok-18/IGNet で入手できます。
Infrared and visible image fusion has gradually proved to be a vital fork in the field of multi-modality imaging technologies. In recent developments, researchers not only focus on the quality of fused images but also evaluate their performance in downstream tasks. Nevertheless, the majority of methods seldom put their eyes on the mutual learning from different modalities, resulting in fused images lacking significant details and textures. To overcome this issue, we propose an interactive graph neural network (GNN)-based architecture between cross modality for fusion, called IGNet. Specifically, we first apply a multi-scale extractor to achieve shallow features, which are employed as the necessary input to build graph structures. Then, the graph interaction module can construct the extracted intermediate features of the infrared/visible branch into graph structures. Meanwhile, the graph structures of two branches interact for cross-modality and semantic learning, so that fused images can maintain the important feature expressions and enhance the performance of downstream tasks. Besides, the proposed leader nodes can improve information propagation in the same modality. Finally, we merge all graph features to get the fusion result. Extensive experiments on different datasets (TNO, MFNet and M3FD) demonstrate that our IGNet can generate visually appealing fused images while scoring averagely 2.59% mAP@.5 and 7.77% mIoU higher in detection and segmentation than the compared state-of-the-art methods. The source code of the proposed IGNet can be available at https://github.com/lok-18/IGNet.
updated: Mon Aug 07 2023 02:25:06 GMT+0000 (UTC)
published: Mon Aug 07 2023 02:25:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト