arXiv reaDer
リモートセンシング画像の超解像度のための空間間ピクセル統合とステージ間機能融合ベースの変換ネットワーク
Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based Transformer Network for Remote Sensing Image Super-Resolution
リモート センシング画像の超解像度 (RSISR) は、空間の詳細を向上させ、衛星画像の品質を向上させる上で重要な役割を果たします。最近、トランスベースのモデルが RSISR で競争力のあるパフォーマンスを示しています。グローバルな自己注意から生じる二次計算の複雑さを軽減するために、さまざまな方法で注意をローカル ウィンドウに制限し、その効率を高めます。その結果、単一の注目層の受容野が不十分となり、コンテキスト モデリングが不十分になります。さらに、ほとんどの変換ベースのアプローチはスキップ接続を通じて浅い特徴を再利用しますが、これらの接続のみに依存すると、浅い特徴と深い特徴を同等に扱い、それらを特徴付けるモデルの機能が妨げられます。これらの問題に対処するために、RSISR 用の空間間ピクセル統合およびクロスステージ機能融合ベースの変換ネットワーク (SPIFFNet) と呼ばれる新しい変換アーキテクチャを提案します。私たちが提案したモデルは、画像全体の全体的な認知と理解を効果的に強化し、複数段階にわたる特徴の効率的な統合を促進します。このモデルには、ローカル ウィンドウにコンテキスト情報を導入する空間間ピクセル統合アテンション (CSPIA) が組み込まれています。一方、ステージ間特徴融合アテンション (CSFFA) は、前のステージからの特徴を適応的に融合して、現在の要件に合わせて特徴表現を改善します。ステージ。私たちは複数のベンチマーク データセットに対して包括的な実験を実施し、最先端の手法と比較した場合、定量的メトリクスと視覚的品質の両方の点で私たちが提案する SPIFFNet の優れたパフォーマンスを実証しました。
Remote sensing image super-resolution (RSISR) plays a vital role in enhancing spatial detials and improving the quality of satellite imagery. Recently, Transformer-based models have shown competitive performance in RSISR. To mitigate the quadratic computational complexity resulting from global self-attention, various methods constrain attention to a local window, enhancing its efficiency. Consequently, the receptive fields in a single attention layer are inadequate, leading to insufficient context modeling. Furthermore, while most transform-based approaches reuse shallow features through skip connections, relying solely on these connections treats shallow and deep features equally, impeding the model's ability to characterize them. To address these issues, we propose a novel transformer architecture called Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based Transformer Network (SPIFFNet) for RSISR. Our proposed model effectively enhances global cognition and understanding of the entire image, facilitating efficient integration of features cross-stages. The model incorporates cross-spatial pixel integration attention (CSPIA) to introduce contextual information into a local window, while cross-stage feature fusion attention (CSFFA) adaptively fuses features from the previous stage to improve feature expression in line with the requirements of the current stage. We conducted comprehensive experiments on multiple benchmark datasets, demonstrating the superior performance of our proposed SPIFFNet in terms of both quantitative metrics and visual quality when compared to state-of-the-art methods.
updated: Thu Jul 06 2023 13:19:06 GMT+0000 (UTC)
published: Thu Jul 06 2023 13:19:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト