高解像度リモート センシング (HRS) セマンティック セグメンテーションは、高解像度のカバレッジ エリアから主要なオブジェクトを抽出します。ただし、HRS 画像内の同じカテゴリのオブジェクトは、一般に、さまざまな地理的環境にわたってスケールと形状に大きな違いが見られるため、データ分布に適合させることが困難になります。さらに、複雑な背景環境により、異なるカテゴリのオブジェクトが同様に見えるため、かなりの数のオブジェクトが背景として誤分類されます。これらの問題により、既存の学習アルゴリズムは最適化されていません。この研究では、情報集約 (IA) のスタックを備えたファネル モジュール、マルチブランチ モジュールで構成される効率的なネットワーク構造設計を備えた高解像度リモート センシング ネットワーク (Hi-ResNet) を提案することで、上記の問題を解決します。 ) ブロック、および機能改良モジュールを順次、クラスに依存しないエッジ認識 (CEA) 損失を検出します。具体的には、ダウンサンプリングして計算コストを削減し、初期入力画像から高解像度の意味情報を抽出するファネル モジュールを提案します。次に、処理された特徴画像を段階的に多重解像度ブランチにダウンサンプリングして、さまざまなスケールで画像特徴をキャプチャし、効果的な特徴集約のために、アテンション メカニズムを活用して重要な潜在情報をキャプチャする IA ブロックを適用し、バリアントを持つ同じクラスの画像特徴を区別します。スケールも形も。最後に、特徴改良モジュールは CEA 損失関数を統合します。これにより、類似した形状を持つクラス間オブジェクトの曖昧さがなくなり、正確な予測のためにデータ分布距離が増加します。効果的な事前トレーニング戦略により、3 つの HRS セグメンテーション ベンチマークで最先端の手法に対する Hi-ResNet の優位性を実証しました。
High-resolution remote sensing (HRS) semantic segmentation extracts key objects from high-resolution coverage areas. However, objects of the same category within HRS images generally show significant differences in scale and shape across diverse geographical environments, making it difficult to fit the data distribution. Additionally, a complex background environment causes similar appearances of objects of different categories, which precipitates a substantial number of objects into misclassification as background. These issues make existing learning algorithms sub-optimal. In this work, we solve the above-mentioned problems by proposing a High-resolution remote sensing network (Hi-ResNet) with efficient network structure designs, which consists of a funnel module, a multi-branch module with stacks of information aggregation (IA) blocks, and a feature refinement module, sequentially, and Class-agnostic Edge Aware (CEA) loss. Specifically, we propose a funnel module to downsample, which reduces the computational cost, and extract high-resolution semantic information from the initial input image. Secondly, we downsample the processed feature images into multi-resolution branches incrementally to capture image features at different scales and apply IA blocks, which capture key latent information by leveraging attention mechanisms, for effective feature aggregation, distinguishing image features of the same class with variant scales and shapes. Finally, our feature refinement module integrate the CEA loss function, which disambiguates inter-class objects with similar shapes and increases the data distribution distance for correct predictions. With effective pre-training strategies, we demonstrated the superiority of Hi-ResNet over state-of-the-art methods on three HRS segmentation benchmarks.