建物のセグメンテーションは、地球観測および航空画像解析の分野における基本的なタスクです。文献にある既存の深層学習ベースの手法のほとんどは、固定または狭い範囲の空間解像度の画像に適用できます。実際のシナリオでは、ユーザーは幅広い画像解像度を扱います。そのため、深層学習モデルのトレーニングに使用されるデータセットの空間解像度と一致するように、特定の航空画像を再サンプリングする必要があることが多く、その結果、セグメンテーションのパフォーマンスが低下します。この課題を克服するために、この原稿では、広範囲の空間解像度の航空画像から建物をセグメント化するスケール不変ニューラル ネットワーク (Sci-Net) アーキテクチャを提案します。具体的には、私たちのアプローチは、UNet 階層表現と Dense Atrous Spatial Pyramid Pooling を活用して、きめの細かいマルチスケール表現を抽出します。 Sci-Net は、Open Cities AI および Multi-Scale Building データセットで最先端のモデルを大幅に上回り、さまざまな空間解像度にわたって安定した改善マージンを示しています。
Buildings' segmentation is a fundamental task in the field of earth observation and aerial imagery analysis. Most existing deep learning-based methods in the literature can be applied to a fixed or narrow-range spatial resolution imagery. In practical scenarios, users deal with a broad spectrum of image resolutions. Thus, a given aerial image often needs to be re-sampled to match the spatial resolution of the dataset used to train the deep learning model, which results in a degradation in segmentation performance. To overcome this challenge, we propose, in this manuscript, Scale-invariant Neural Network (Sci-Net) architecture that segments buildings from wide-range spatial resolution aerial images. Specifically, our approach leverages UNet hierarchical representation and Dense Atrous Spatial Pyramid Pooling to extract fine-grained multi-scale representations. Sci-Net significantly outperforms state of the art models on the Open Cities AI and the Multi-Scale Building datasets with a steady improvement margin across different spatial resolutions.