arXiv reaDer
深く効率的な方向へ:VHR画像の変化を検出するための深いシャムの自己注意完全効率的な畳み込みネットワーク
Towards Deep and Efficient: A Deep Siamese Self-Attention Fully Efficient Convolutional Network for Change Detection in VHR Images
最近、FCNがCD分野で広く注目されています。より良いCD性能を追求するために、より深く、より複雑なFCNを設計する傾向になり、必然的に膨大な数のパラメーターと耐え難い計算負荷をもたらします。より正確なCD結果を取得すると同時にパラメータ数を減らして効率を向上させる非常に深いアーキテクチャを設計することを目的として、この作業では、EffCDNetという非常に深く効率的なCDネットワークを紹介します。 EffCDNetでは、ディープアーキテクチャに関連する多数のパラメータを削減するために、深さ方向の畳み込みとチャネルシャッフルメカニズムを備えたグループ畳み込みで構成される効率的な畳み込みが導入され、標準の畳み込み層が置き換えられます。特定のネットワークアーキテクチャに関しては、EffCDNetは主流のUNetのようなアーキテクチャを使用せず、非常に深いエンコーダと軽量のデコーダを備えたアーキテクチャを採用しています。非常に深いエンコーダーでは、効率的な畳み込みによってスタックされた2つの非常に深いシャムストリームが、最初に入力画像ペアから2つの非常に代表的で有益な特徴マップを抽出します。その後、効率的なASPPモジュールは、マルチスケールの変更情報をキャプチャするように設計されています。軽量デコーダーでは、反復十字交差自己注意(RCCA)モジュールが適用され、非局所的な類似の特徴表現を効率的に利用して、各ピクセルの識別性を高め、変更された領域と変更されていない領域を効果的に分離します。さらに、混乱したピクセルの最適化問題に取り組むために、情報エントロピーに基づく2つの新しい損失関数が提示されます。 2つの挑戦的なCDデータセットでは、私たちのアプローチは、ベンチマークレベルのパラメーター番号と非常に低い計算オーバーヘッドのみで、他のSOTAFCNベースの方法よりも優れています。
Recently, FCNs have attracted widespread attention in the CD field. In pursuit of better CD performance, it has become a tendency to design deeper and more complicated FCNs, which inevitably brings about huge numbers of parameters and an unbearable computational burden. With the goal of designing a quite deep architecture to obtain more precise CD results while simultaneously decreasing parameter numbers to improve efficiency, in this work, we present a very deep and efficient CD network, entitled EffCDNet. In EffCDNet, to reduce the numerous parameters associated with deep architecture, an efficient convolution consisting of depth-wise convolution and group convolution with a channel shuffle mechanism is introduced to replace standard convolutional layers. In terms of the specific network architecture, EffCDNet does not use mainstream UNet-like architecture, but rather adopts the architecture with a very deep encoder and a lightweight decoder. In the very deep encoder, two very deep siamese streams stacked by efficient convolution first extract two highly representative and informative feature maps from input image-pairs. Subsequently, an efficient ASPP module is designed to capture multi-scale change information. In the lightweight decoder, a recurrent criss-cross self-attention (RCCA) module is applied to efficiently utilize non-local similar feature representations to enhance discriminability for each pixel, thus effectively separating the changed and unchanged regions. Moreover, to tackle the optimization problem in confused pixels, two novel loss functions based on information entropy are presented. On two challenging CD datasets, our approach outperforms other SOTA FCN-based methods, with only benchmark-level parameter numbers and quite low computational overhead.
updated: Wed Aug 18 2021 14:02:38 GMT+0000 (UTC)
published: Wed Aug 18 2021 14:02:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト