最近の学習ベースの画像融合法は、事前登録されたマルチモダリティデータで多くの進歩を示しましたが、空間変形とクロスモダリティの不一致を狭めることが困難なため、不整合なマルチモダリティデータを扱う深刻な幽霊に苦しんでいました。障害を克服するために、この論文では、教師なしの不整合な赤外線と可視画像の融合(IVIF)のための堅牢なクロスモダリティ生成登録パラダイムを提示します。具体的には、クロスモダリティ知覚スタイル転送ネットワーク(CPSTN)を提案して、可視画像を入力として取得する疑似赤外線画像を生成します。 CPSTNの優れたジオメトリ保存機能の恩恵を受けて、生成された疑似赤外線画像はシャープな構造を採用します。これは、クロスモダリティ画像の位置合わせを、赤外線画像の構造に敏感なモノモダリティレジストレーションに変換するのに役立ちます。この場合、マルチレベルリファインメントレジストレーションネットワーク(MRRN)を導入して、歪んだ赤外線画像と疑似赤外線画像の間の変位ベクトル場を予測し、モノモダリティ設定で登録された赤外線画像を再構成します。さらに、登録された赤外線画像と可視画像をより適切に融合するために、機能相互作用融合モジュール(IFM)を提示して、デュアルパス相互作用融合ネットワーク(DIFN)での融合のためのより意味のある機能を適応的に選択します。広範な実験結果は、提案された方法が、ミスアラインされたクロスモダリティ画像融合に対して優れた能力を発揮することを示唆している。
Recent learning-based image fusion methods have marked numerous progress in pre-registered multi-modality data, but suffered serious ghosts dealing with misaligned multi-modality data, due to the spatial deformation and the difficulty narrowing cross-modality discrepancy. To overcome the obstacles, in this paper, we present a robust cross-modality generation-registration paradigm for unsupervised misaligned infrared and visible image fusion (IVIF). Specifically, we propose a Cross-modality Perceptual Style Transfer Network (CPSTN) to generate a pseudo infrared image taking a visible image as input. Benefiting from the favorable geometry preservation ability of the CPSTN, the generated pseudo infrared image embraces a sharp structure, which is more conducive to transforming cross-modality image alignment into mono-modality registration coupled with the structure-sensitive of the infrared image. In this case, we introduce a Multi-level Refinement Registration Network (MRRN) to predict the displacement vector field between distorted and pseudo infrared images and reconstruct registered infrared image under the mono-modality setting. Moreover, to better fuse the registered infrared images and visible images, we present a feature Interaction Fusion Module (IFM) to adaptively select more meaningful features for fusion in the Dual-path Interaction Fusion Network (DIFN). Extensive experimental results suggest that the proposed method performs superior capability on misaligned cross-modality image fusion.