arXiv reaDer
リモートセンシング画像におけるインスタンスセグメンテーションのためのマルチスケールコンテキストを集約することを学ぶ
Learning to Aggregate Multi-Scale Context for Instance Segmentation in Remote Sensing Images
インスタンスレベルでオブジェクトのピクセルごとのラベリングを実行することを目的とした、リモートセンシング画像のインスタンスセグメンテーションのタスクは、さまざまな民間アプリケーションにとって非常に重要です。以前の成功にもかかわらず、自然画像用に設計されたほとんどの既存のインスタンスセグメンテーション方法は、トップビューリモートセンシング画像に直接適用されると、パフォーマンスが大幅に低下します。注意深く分析することにより、課題は主に、深刻なスケール変動、低コントラスト、およびクラスター化された分布による識別可能なオブジェクトの特徴の欠如に起因することがわかります。これらの問題に対処するために、特徴抽出プロセスを改善するための新しいコンテキスト集約ネットワーク(CATNet)が提案されています。提案されたモデルは、3つの軽量プラグアンドプレイモジュール、つまり高密度機能ピラミッドネットワーク(DenseFPN)、空間コンテキストピラミッド(SCP)、および階層的関心領域抽出器(HRoIE)を活用して、機能、空間、およびそれぞれインスタンスドメイン。 DenseFPNは、レベル間残余接続、レベル間密接続、および機能再重み付け戦略を採用することにより、より柔軟な情報フローを確立するマルチスケール機能伝播モジュールです。アテンションメカニズムを活用して、SCPは、グローバルな空間コンテキストをローカル領域に集約することにより、機能をさらに強化します。インスタンスごとに、HRoIEはさまざまなダウンストリームタスクのRoI機能を適応的に生成します。挑戦的なiSAID、DIOR、NWPU VHR-10、およびHRSIDデータセットに対して、提案されたスキームの広範な評価を実行します。評価結果は、提案されたアプローチが同様の計算コストの下で最先端のものよりも優れていることを示しています。ソースコードと事前トレーニング済みモデルは、https://github.com/yeliudev/CATNetで入手できます。
The task of instance segmentation in remote sensing images, aiming at performing per-pixel labeling of objects at instance level, is of great importance for various civil applications. Despite previous successes, most existing instance segmentation methods designed for natural images encounter sharp performance degradations when they are directly applied to top-view remote sensing images. Through careful analysis, we observe that the challenges mainly come from the lack of discriminative object features due to severe scale variations, low contrasts, and clustered distributions. In order to address these problems, a novel context aggregation network (CATNet) is proposed to improve the feature extraction process. The proposed model exploits three lightweight plug-and-play modules, namely dense feature pyramid network (DenseFPN), spatial context pyramid (SCP), and hierarchical region of interest extractor (HRoIE), to aggregate global visual context at feature, spatial, and instance domains, respectively. DenseFPN is a multi-scale feature propagation module that establishes more flexible information flows by adopting inter-level residual connections, cross-level dense connections, and feature re-weighting strategy. Leveraging the attention mechanism, SCP further augments the features by aggregating global spatial context into local regions. For each instance, HRoIE adaptively generates RoI features for different downstream tasks. We carry out extensive evaluations of the proposed scheme on the challenging iSAID, DIOR, NWPU VHR-10, and HRSID datasets. The evaluation results demonstrate that the proposed approach outperforms state-of-the-arts under similar computational costs. Source code and pre-trained models are available at https://github.com/yeliudev/CATNet.
updated: Sun Mar 27 2022 07:45:53 GMT+0000 (UTC)
published: Mon Nov 22 2021 08:55:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト