arXiv reaDer
トランスフォーマーを使用した顕著なオブジェクト検出におけるグローバル-ローカル表現の統合
Unifying Global-Local Representations in Salient Object Detection with Transformer
完全畳み込みネットワーク(FCN)は、長い間、顕著なオブジェクトの検出を支配してきました。ただし、CNNの局所性には、グローバルな受容野を持つのに十分な深さのモデルが必要であり、そのような深いモデルは常に局所的な詳細の喪失につながります。この論文では、浅い層から深い層への表現のグローバル化を確実にするために、新しい注意ベースのエンコーダーであるビジョントランスフォーマーを顕著なオブジェクト検出に導入します。非常に浅いレイヤーのグローバルビューにより、トランスフォーマーエンコーダーはより多くのローカル表現を保持して、最終的な顕著性マップの空間詳細を復元します。さらに、各レイヤーは前のレイヤーのグローバルビューをキャプチャできるため、隣接するレイヤーは暗黙的に表現の違いを最大化し、冗長な機能を最小化できます。これにより、トランスフォーマーレイヤーのすべての出力機能が最終的な予測に一意に貢献します。トランスからの特徴をデコードするために、シンプルでありながら効果的な深く変換されたデコーダを提案します。デコーダーは、トランスの機能を高密度にデコードおよびアップサンプリングし、ノイズの注入が少ない最終的な顕著性マップを生成します。実験結果は、私たちの方法が5つのベンチマークで他のFCNベースおよび変圧器ベースの方法を大幅に上回り、平均絶対誤差(MAE)に関して平均12.17%の改善を示しています。コードはhttps://github.com/OliverRensu/GLSTRで入手できます。
The fully convolutional network (FCN) has dominated salient object detection for a long period. However, the locality of CNN requires the model deep enough to have a global receptive field and such a deep model always leads to the loss of local details. In this paper, we introduce a new attention-based encoder, vision transformer, into salient object detection to ensure the globalization of the representations from shallow to deep layers. With the global view in very shallow layers, the transformer encoder preserves more local representations to recover the spatial details in final saliency maps. Besides, as each layer can capture a global view of its previous layer, adjacent layers can implicitly maximize the representation differences and minimize the redundant features, making that every output feature of transformer layers contributes uniquely for final prediction. To decode features from the transformer, we propose a simple yet effective deeply-transformed decoder. The decoder densely decodes and upsamples the transformer features, generating the final saliency map with less noise injection. Experimental results demonstrate that our method significantly outperforms other FCN-based and transformer-based methods in five benchmarks by a large margin, with an average of 12.17% improvement in terms of Mean Absolute Error (MAE). Code will be available at https://github.com/OliverRensu/GLSTR.
updated: Thu Aug 05 2021 17:51:32 GMT+0000 (UTC)
published: Thu Aug 05 2021 17:51:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト