arXiv reaDer
フル解像度フレームワークでの畳み込みニューラルネットワークによるパンシャープン
Pansharpening by convolutional neural networks in the full resolution framework
近年、ディープラーニングベースのパンシャープンへの関心が高まっています。これまでのところ、研究は主にアーキテクチャに焦点を当ててきました。それにもかかわらず、モデルトレーニングも同様に重要な問題です。最初の問題は、パンシャープンで避けられないグラウンドトゥルースの欠如です。これは、多くの場合、解像度を下げたドメインでネットワークをトレーニングし、元のデータをグラウンドトゥルースとして使用し、暗黙のスケール不変性の仮定に依存することで対処されます。ただし、フル解像度の画像では、結果が期待外れになることが多く、そのような不変性が成り立たないことを示唆しています。さらなる問題は、トレーニングデータの不足であり、これにより、一般化能力が制限され、トレーニング外のテスト画像のパフォーマンスが低下します。この論文では、深層学習ベースのパンシャープンのためのフル解像度のトレーニングフレームワークを提案します。フレームワークは完全に一般的であり、深層学習ベースのパンシャープンモデルに使用できます。トレーニングは高解像度ドメインで行われ、元のデータのみに依存するため、情報の損失を回避できます。スペクトルおよび空間の忠実度を確保するために、適切な2成分損失が定義されます。スペクトル成分は、パンシャープンされた出力と低解像度のマルチスペクトル入力の間の一貫性を強制します。高解像度で計算された空間成分は、各パンシャープンバンドとパンクロマティック入力の間の局所相関を最大化します。テスト時には、ターゲット適応型の操作モダリティが採用され、限られた計算オーバーヘッドで優れた一般化を実現します。 WorldView-3、WorldView-2、およびGeoEye-1画像で実行された実験は、提案されたフレームワークでトレーニングされたメソッドが、フル解像度の数値インデックスと視覚的品質の両方の点でかなり良いパフォーマンスを保証することを示しています。
In recent years, there has been a growing interest in deep learning-based pansharpening. Thus far, research has mainly focused on architectures. Nonetheless, model training is an equally important issue. A first problem is the absence of ground truths, unavoidable in pansharpening. This is often addressed by training networks in a reduced resolution domain and using the original data as ground truth, relying on an implicit scale invariance assumption. However, on full resolution images results are often disappointing, suggesting such invariance not to hold. A further problem is the scarcity of training data, which causes a limited generalization ability and a poor performance on off-training test images. In this paper, we propose a full-resolution training framework for deep learning-based pansharpening. The framework is fully general and can be used for any deep learning-based pansharpening model. Training takes place in the high-resolution domain, relying only on the original data, thus avoiding any loss of information. To ensure spectral and spatial fidelity, a suitable two-component loss is defined. The spectral component enforces consistency between the pansharpened output and the low-resolution multispectral input. The spatial component, computed at high-resolution, maximizes the local correlation between each pansharpened band and the panchromatic input. At testing time, the target-adaptive operating modality is adopted, achieving good generalization with a limited computational overhead. Experiments carried out on WorldView-3, WorldView-2, and GeoEye-1 images show that methods trained with the proposed framework guarantee a pretty good performance in terms of both full-resolution numerical indexes and visual quality.
updated: Mon Jan 24 2022 09:31:06 GMT+0000 (UTC)
published: Tue Nov 16 2021 10:03:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト