建物のセグメンテーションは、地球観測および航空画像解析の分野における基本的なタスクです。文献にある既存の深層学習ベースの手法のほとんどは、固定または狭い範囲の空間解像度の画像に適用できます。実際のシナリオでは、ユーザーは幅広い画像解像度を扱います。そのため、深層学習モデルのトレーニングに使用されるデータセットの空間解像度と一致するように、特定の航空画像を再サンプリングする必要があることが多く、その結果、セグメンテーションのパフォーマンスが低下します。これを克服するために、異なる空間解像度で航空画像に存在する建物をセグメント化できるスケール不変ニューラル ネットワーク (Sci-Net) を提案します。具体的には、私たちのアプローチは、UNet 階層表現と膨張畳み込みを活用して、きめの細かいマルチスケール表現を抽出します。私たちの方法は、Open Cities AI データセットの他の最先端モデルよりも大幅に優れており、さまざまな解像度で安定した改善マージンを示しています。
Buildings' segmentation is a fundamental task in the field of earth observation and aerial imagery analysis. Most existing deep learning-based methods in the literature can be applied to fixed or narrow-ranged spatial resolution imagery. In practical scenarios, users deal with a broad spectrum of image resolutions. Thus, a given aerial image often needs to be re-sampled to match the spatial resolution of the dataset used to train the deep learning model, which results in a degradation in segmentation performance. To overcome this, we propose a Scale-invariant Neural Network (Sci-Net) that can segment buildings present in aerial images at different spatial resolutions. Specifically, our approach leverages UNet hierarchical representations and dilated convolutions to extract fine-grained multi-scale representations. Our method significantly outperforms other state of the art models on the Open Cities AI dataset with a steady improvements margin across different resolutions.