建物のセグメンテーションは、地球観測と航空画像分析の分野における基本的なタスクです。文献にある既存の深層学習ベースのアルゴリズムのほとんどは、固定または狭範囲の空間解像度画像に適用できます。実際のシナリオでは、ユーザーは広範囲の画像解像度を処理するため、深層学習モデルのトレーニングに使用されるデータセットの空間解像度に一致するように、特定の航空画像をリサンプリングする必要があります。ただし、これにより、出力セグメンテーションマスクの品質が大幅に低下します。この問題に対処するために、この研究では、さまざまな空間解像度で航空画像に存在する建物をセグメント化できるスケール不変ニューラルネットワーク(Sci-Net)を提案します。具体的には、U-Netアーキテクチャを変更し、それを高密度のAtrous Spatial Pyramid Pooling(ASPP)と融合して、きめ細かいマルチスケール表現を抽出しました。提案されたモデルのパフォーマンスをOpenCities AIデータセットのいくつかの最先端モデルと比較し、Sci-Netがデータセットで利用可能なすべての解像度にわたってパフォーマンスの着実な改善マージンを提供することを示しました。
Buildings' segmentation is a fundamental task in the field of earth observation and aerial imagery analysis. Most existing deep learning based algorithms in the literature can be applied on fixed or narrow-ranged spatial resolution imagery. In practical scenarios, users deal with a wide spectrum of images resolution and thus, often need to resample a given aerial image to match the spatial resolution of the dataset used to train the deep learning model. This however, would result in a severe degradation in the quality of the output segmentation masks. To deal with this issue, we propose in this research a Scale-invariant neural network (Sci-Net) that is able to segment buildings present in aerial images at different spatial resolutions. Specifically, we modified the U-Net architecture and fused it with dense Atrous Spatial Pyramid Pooling (ASPP) to extract fine-grained multi-scale representations. We compared the performance of our proposed model against several state of the art models on the Open Cities AI dataset, and showed that Sci-Net provides a steady improvement margin in performance across all resolutions available in the dataset.