画像レジストレーションはリモートセンシングコミュニティで数十年にわたって研究されてきましたが、マルチモーダルデータ(光学、LiDAR、SAR、マップなど)のレジストレーションは、そのようなデータ間の非線形強度の大きな違いのため、依然として困難な問題です。この問題に対処するために、このペーパーでは、マルチモーダル登録用のローカル記述子を統合する高速で堅牢なマッチングフレームワークを紹介します。提案されたフレームワークでは、Histogram of Oriented Gradient(HOG)、Local Self Similarity(LSS)、Speeded-Up Robust Feature(SURF)などのローカル記述子が最初に各ピクセルで抽出され、ピクセル単位の特徴表現が形成されます。画像の。次に、3次元高速フーリエ変換(3DFFT)手法を使用して、周波数領域での特徴表現に基づいて類似性の尺度を定義し、続いてテンプレートマッチングスキームを使用して画像間の制御点を検出します。この手順では、画像の方向付けられた勾配を使用した新しいピクセル単位の特徴表現も提案します。これは、方向付けられた勾配のチャネル特徴(CFOG)と呼ばれます。この新しい機能は、ピクセル単位のHOG記述子の拡張であり、マッチングパフォーマンスと計算効率の両方で優れています。提案されたフレームワークの主な利点には、(1)ピクセル単位の特徴記述を使用した構造的類似性表現、および(2)3DFFTの使用による高い計算効率が含まれます。さまざまなタイプのマルチモーダル画像の実験結果は、提案されたフレームワークの優れたマッチング性能が最先端の方法よりも優れていることを示しています。提案されたマッチングフレームワークは、中国の上場企業のソフトウェア製品で使用されています。 matlabコードはこの原稿で利用できます。
While image registration has been studied in remote sensing community for decades, registering multimodal data [e.g., optical, LiDAR, SAR, and map] remains a challenging problem because of significant nonlinear intensity differences between such data. To address this problem, this paper presents a fast and robust matching framework integrating local descriptors for multimodal registration. In the proposed framework, a local descriptor, such as Histogram of Oriented Gradient (HOG), Local Self Similarity (LSS), or Speeded-Up Robust Feature (SURF), is first extracted at each pixel to form a pixel-wise feature representation of an image. Then we define a similarity measure based on the feature representation in frequency domain using the 3 Dimensional Fast Fourier Transform (3DFFT) technique, followed by a template matching scheme to detect control points between images. In this procedure, we also propose a novel pixel-wise feature representation using orientated gradients of images, which is named channel features of orientated gradients (CFOG). This novel feature is an extension of the pixel-wise HOG descriptors, and outperforms that both in matching performance and computational efficiency. The major advantage of the proposed framework includes: (1) structural similarity representation using the pixel-wise feature description and (2) high computational efficiency due to the use of 3DFFT. Experimental results on different types of multimodal images show the superior matching performance of the proposed framework than the state-of-the-art methods.The proposed matching framework have been used in the software products of a Chinese listed company. The matlab code is available in this manuscript.