長距離コンテキスト情報は、高解像度(HR)リモートセンシング画像(RSI)のセマンティックセグメンテーションにとって重要です。ニューラルネットワークのトレーニングに一般的に使用される画像トリミング操作は、大規模なRSIでの長距離コンテキスト情報の認識を制限します。この制限を打破するために、HR RSIのセマンティックセグメンテーション用のワイドコンテキストネットワーク(WiCoNet)を提案します。 WiCoNetでは、ローカル情報を集約する従来の特徴抽出ネットワークとは別に、より大きな画像領域の空間情報を明示的にモデル化するために、追加のコンテキストブランチが設計されています。 2つのブランチ間の情報は、コンテキストトランスフォーマーを介して伝達されます。コンテキストトランスフォーマーは、長距離のコンテキスト相関をモデル化するためにビジョントランスフォーマーから派生した新しい設計です。いくつかのベンチマークデータセットで実施されたアブレーション研究と比較実験は、提案された方法の有効性を証明しています。さらに、新しい北京土地利用(BLU)データセットを紹介します。これは、高品質できめの細かい参照ラベルを備えた大規模なHR衛星データセットであり、この分野での将来の研究を後押しすることができます。
Long-range context information is crucial for the semantic segmentation of High-Resolution (HR) Remote Sensing Images (RSIs). The image cropping operations, commonly used for training neural networks, limit the perception of long-range context information in large RSIs. To break this limitation, we propose a Wide-Context Network (WiCoNet) for the semantic segmentation of HR RSIs. In the WiCoNet, apart from a conventional feature extraction network that aggregates the local information, an extra context branch is designed to explicitly model the spatial information in a larger image area. The information between the two branches is communicated through a Context Transformer, which is a novel design derived from the Vision Transformer to model the long-range context correlations. Ablation studies and comparative experiments conducted on several benchmark datasets prove the effectiveness of the proposed method. In addition, we present a new Beijing Land-Use (BLU) dataset. This is a large-scale HR satellite dataset provided with high-quality and fine-grained reference labels, which can boost future studies in this field.