arXiv reaDer
Transformer Meets DCFAM:高解像度リモートセンシング画像のための新しいセマンティックセグメンテーションスキーム
Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for Fine-Resolution Remote Sensing Images
エンコーダ-デコーダアーキテクチャを備えた完全畳み込みネットワーク(FCN)は、セマンティックセグメンテーションの標準パラダイムになりました。エンコーダ-デコーダアーキテクチャは、エンコーダを利用してマルチレベルの特徴マップをキャプチャし、デコーダによって最終的な予測に組み込まれます。コンテキストは正確なセグメンテーションにとって重要であるため、拡張/アトラス畳み込みの採用や注意モジュールの挿入など、インテリジェントな方法でそのような情報を抽出するために多大な努力が払われてきました。ただし、前述の取り組みはすべて、ルートからコンテキストの問題に取り組むことができないResNetバックボーンを備えたFCNアーキテクチャに基づいています。対照的に、コンテキスト情報を完全に抽出するバックボーンとしてSwin Transformerを導入し、解像度を復元してセグメンテーションマップを生成するために、密に接続された特徴集約モジュール(DCFAM)という名前の新しいデコーダーを設計します。 2つのデータセットでの広範な実験は、提案されたスキームの有効性を示しています。
The fully-convolutional network (FCN) with an encoder-decoder architecture has become the standard paradigm for semantic segmentation. The encoder-decoder architecture utilizes an encoder to capture multi-level feature maps, which are then incorporated into the final prediction by a decoder. As the context is critical for precise segmentation, tremendous effort has been made to extract such information in an intelligent manner, including employing dilated/atrous convolutions or inserting attention modules. However, the aforementioned endeavors are all based on the FCN architecture with ResNet backbone which cannot tackle the context issue from the root. By contrast, we introduce the Swin Transformer as the backbone to fully extract the context information and design a novel decoder named densely connected feature aggregation module (DCFAM) to restore the resolution and generate the segmentation map. The extensive experiments on two datasets demonstrate the effectiveness of the proposed scheme.
updated: Sun Apr 25 2021 11:34:22 GMT+0000 (UTC)
published: Sun Apr 25 2021 11:34:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト