複雑な構造、多様なスケール、多様な外観のため、リモートセンシングされたさまざまな画像から建物のフットプリントを正確かつ効率的に抽出することは依然として課題です。既存の畳み込みニューラルネットワーク(CNN)ベースの建物抽出方法は、CNNの繰り返しのプーリング操作中にCNNフィーチャマップの空間情報が失われ、大きな建物には依然として不正確なセグメンテーションエッジがあるため、小さな建物を検出できないと不満を持っています。さらに、CNNによって抽出された特徴は、それぞれのフィールドのサイズによって制限される常に部分的であり、テクスチャの低い大規模な建物は、抽出時に常に不連続で穴が開いています。この論文は、マルチスケールの建物のフットプリントと正確な境界を正確に抽出するための新しいマルチアテンディングパスニューラルネットワーク(MAP-Net)を提案します。 MAP-Netは、各ステージが徐々に生成され、固定解像度で高レベルのセマンティック特徴を抽出するマルチパラレルパスを通じて、空間ローカリゼーションで保存されたマルチスケール特徴を学習します。次に、アテンションモジュールは、最適化のために各パスからチャネルごとの機能を適応的に絞り込み、ピラミッド空間プーリングモジュールは、不連続な建物のフットプリントを調整するためのグローバルな依存関係をキャプチャします。実験結果は、MAP-Netが、境界の位置特定の精度と大きな建物の連続性において、最先端の(SOTA)アルゴリズムよりも優れていることを示しています。具体的には、私たちの方法は、Urban 3D、Deep Globe、およびWHUデータセットの最新のHRNetv2と比較して、計算の複雑さを増すことなく、それぞれ0.68%、1.74%、1.46%の精度、および1.50%、1.53%、0.82%のIoUスコアの改善を達成しました。 TensorFlowの実装は、https://github.com/lehaifeng/MAPNetで入手できます。
Accurately and efficiently extracting building footprints from a wide range of remote sensed imagery remains a challenge due to their complex structure, variety of scales and diverse appearances. Existing convolutional neural network (CNN)-based building extraction methods are complained that they cannot detect the tiny buildings because the spatial information of CNN feature maps are lost during repeated pooling operations of the CNN, and the large buildings still have inaccurate segmentation edges. Moreover, features extracted by a CNN are always partial which restricted by the size of the respective field, and large-scale buildings with low texture are always discontinuous and holey when extracted. This paper proposes a novel multi attending path neural network (MAP-Net) for accurately extracting multiscale building footprints and precise boundaries. MAP-Net learns spatial localization-preserved multiscale features through a multi-parallel path in which each stage is gradually generated to extract high-level semantic features with fixed resolution. Then, an attention module adaptively squeezes channel-wise features from each path for optimization, and a pyramid spatial pooling module captures global dependency for refining discontinuous building footprints. Experimental results show that MAP-Net outperforms state-of-the-art (SOTA) algorithms in boundary localization accuracy as well as continuity of large buildings. Specifically, our method achieved 0.68%, 1.74%, 1.46% precision, and 1.50%, 1.53%, 0.82% IoU score improvement without increasing computational complexity compared with the latest HRNetv2 on the Urban 3D, Deep Globe and WHU datasets, respectively. The TensorFlow implementation is available at https://github.com/lehaifeng/MAPNet.