ResUNet-a: a deep learning framework for semantic segmentation of remotely sensed data
 高解像度の航空写真のシーンを理解することは、さまざまなリモートセンシングアプリケーションでの自動モニタリングのタスクにとって非常に重要です。対象オブジェクトのピクセル値のクラス内のばらつきが大きく、クラス間のばらつきが小さいため、これは依然として困難な作業です。近年、ディープコンボリューショナルニューラルネットワークがリモートセンシングアプリケーションで使用され始め、オブジェクトのピクセルレベルの分類に対する最先端のパフォーマンスが実証されています。 blackHereは、単一時間の非常に高解像度の航空画像のセマンティックセグメンテーションのタスクのパフォーマンス結果の信頼できるフレームワークを提案します。私たちのフレームワークは、新しい深層学習アーキテクチャ、ResUNet-a、およびサイコロ損失に基づく新しい損失関数で構成されています。 ResUNet-aはUNetエンコーダー/デコーダーバックボーンを、残留接続、アトラスコンボリューション、ピラミッドシーン解析プーリング、およびマルチタスク推論と組み合わせて使用します。 ResUNet-aは、オブジェクトの境界、セグメンテーションマスクの距離変換、セグメンテーションマスク、および入力の色付きの再構成を順次推測します。各タスクは、前のタスクの推論に基づいて条件付けられるため、アーキテクチャの計算グラフで説明されているように、さまざまなタスク間に条件付きの関係が確立されます。私たちは、セマンティックセグメンテーションの一般化サイコロ損失のいくつかのフレーバーのパフォーマンスを分析し、優れた収束特性を持ち、非常に不均衡なクラスが存在する場合でも動作するオブジェクトのセマンティックセグメンテーションの新しいバリアント損失関数を導入します。モデリングフレームワークのパフォーマンスは、ISPRS 2Dポツダムデータセットで評価されます。結果は、最高のモデルのすべてのクラスで平均F1スコアが92.9%の最新のパフォーマンスを示しています。
Scene understanding of high resolution aerial images is of great importance for the task of automated monitoring in various remote sensing applications. Due to the large within-class and small between-class variance in pixel values of objects of interest, this remains a challenging task. In recent years, deep convolutional neural networks have started being used in remote sensing applications and demonstrate state of the art performance for pixel level classification of objects. blackHere we propose a reliable framework for performant results for the task of semantic segmentation of monotemporal very high resolution aerial images. Our framework consists of a novel deep learning architecture, ResUNet-a, and a novel loss function based on the Dice loss. ResUNet-a uses a UNet encoder/decoder backbone, in combination with residual connections, atrous convolutions, pyramid scene parsing pooling and multi-tasking inference. ResUNet-a infers sequentially the boundary of the objects, the distance transform of the segmentation mask, the segmentation mask and a colored reconstruction of the input. Each of the tasks is conditioned on the inference of the previous ones, thus establishing a conditioned relationship between the various tasks, as this is described through the architecture's computation graph. We analyse the performance of several flavours of the Generalized Dice loss for semantic segmentation, and we introduce a novel variant loss function for semantic segmentation of objects that has excellent convergence properties and behaves well even under the presence of highly imbalanced classes. The performance of our modeling framework is evaluated on the ISPRS 2D Potsdam dataset. Results show state-of-the-art performance with an average F1 score of 92.9% over all classes for our best model.
