画像融合は、さまざまな条件で撮影された複数の画像から高品質の画像を生成することを目的としています。このタスクの主な問題は、融合結果から無関係な情報を除外しながら、相補的な情報を保存することです。しかし、既存の方法は、静的畳み込みニューラル ネットワーク (CNN) を活用することでこの問題に対処しており、特徴抽出中に 2 つの固有の制限、つまり、空間的に変化するコンテンツを処理できないことと、複数の入力からのガイダンスが欠如しているという問題があります。この論文では、さまざまな場所や入力にわたって効果的な情報利用を可能にする、画像融合のための新しい相互誘導動的ネットワーク (MGDN) を提案します。具体的には、適応特徴抽出のための相互誘導動的フィルター (MGDF) を設計します。これは、相互誘導クロスアテンション (MGCA) モジュールと動的フィルター予測器で構成されます。前者はさまざまな入力からの追加のガイダンスを組み込み、後者はさまざまな場所の空間バリアント カーネル。さらに、抽出された特徴のローカル情報とグローバル情報を効果的に融合する並列特徴融合 (PFF) モジュールを導入します。抽出された特徴間の冗長性をさらに低減し、同時にそれらの共有構造情報を維持するために、正規化相互情報量 (NMI) の最小化と推定された勾配マスクを組み合わせた新しい損失関数を考案しました。 5 つのベンチマーク データセットでの実験結果は、提案された手法が 4 つの画像融合タスクで既存の手法よりも優れていることを示しています。コードとモデルは、https://github.com/Guanys-dar/MGDN で公開されています。
Image fusion aims to generate a high-quality image from multiple images captured under varying conditions. The key problem of this task is to preserve complementary information while filtering out irrelevant information for the fused result. However, existing methods address this problem by leveraging static convolutional neural networks (CNNs), suffering two inherent limitations during feature extraction, i.e., being unable to handle spatial-variant contents and lacking guidance from multiple inputs. In this paper, we propose a novel mutual-guided dynamic network (MGDN) for image fusion, which allows for effective information utilization across different locations and inputs. Specifically, we design a mutual-guided dynamic filter (MGDF) for adaptive feature extraction, composed of a mutual-guided cross-attention (MGCA) module and a dynamic filter predictor, where the former incorporates additional guidance from different inputs and the latter generates spatial-variant kernels for different locations. In addition, we introduce a parallel feature fusion (PFF) module to effectively fuse local and global information of the extracted features. To further reduce the redundancy among the extracted features while simultaneously preserving their shared structural information, we devise a novel loss function that combines the minimization of normalized mutual information (NMI) with an estimated gradient mask. Experimental results on five benchmark datasets demonstrate that our proposed method outperforms existing methods on four image fusion tasks. The code and model are publicly available at: https://github.com/Guanys-dar/MGDN.