arXiv reaDer
MSLKANet: シーン テキスト削除のためのマルチスケール大規模カーネル アテンション ネットワーク
MSLKANet: A Multi-Scale Large Kernel Attention Network for Scene Text Removal
シーン テキストの削除は、テキストを削除し、自然画像の知覚的にもっともらしい背景情報で領域を埋めることを目的としています。プライバシー保護、シーンテキスト検索、テキスト編集など、さまざまな用途で注目を集めています。ディープラーニングの発展により、以前の方法は大幅に改善されました。ただし、既存の方法のほとんどは、大きな知覚フィールドとグローバル情報を無視しているようです。パイオニアの方法は、トリミングされた画像から完全な画像にトレーニング データを変更するだけで、大幅な改善を得ることができます。このホワイト ペーパーでは、フル イメージでシーン テキストを削除するための単一ステージのマルチスケール ネットワーク MSLKANet を紹介します。大規模な知覚フィールドとグローバル情報を取得するために、マルチスケールのラージ カーネル アテンション (MSLKA) を提案して、さまざまな粒度レベルでテキスト領域と背景の間の長期的な依存関係を取得します。さらに、大規模なカーネル分解メカニズムと atrous 空間ピラミッド プーリングを組み合わせて大規模なカーネル空間ピラミッド プーリング (LKSPP) を構築します。これにより、大きな受容野と低コストの計算を維持しながら、空間次元でより多くの有効なピクセルを認識できます。広範な実験結果は、提案された方法が合成データセットと実世界のデータセットの両方で最先端のパフォーマンスを達成し、提案されたコンポーネント MSLKA と LKSPP の有効性を達成することを示しています。
Scene text removal aims to remove the text and fill the regions with perceptually plausible background information in natural images. It has attracted increasing attention due to its various applications in privacy protection, scene text retrieval, and text editing. With the development of deep learning, the previous methods have achieved significant improvements. However, most of the existing methods seem to ignore the large perceptive fields and global information. The pioneer method can get significant improvements by only changing training data from the cropped image to the full image. In this paper, we present a single-stage multi-scale network MSLKANet for scene text removal in full images. For obtaining large perceptive fields and global information, we propose multi-scale large kernel attention (MSLKA) to obtain long-range dependencies between the text regions and the backgrounds at various granularity levels. Furthermore, we combine the large kernel decomposition mechanism and atrous spatial pyramid pooling to build a large kernel spatial pyramid pooling (LKSPP), which can perceive more valid pixels in the spatial dimension while maintaining large receptive fields and low cost of computation. Extensive experimental results indicate that the proposed method achieves state-of-the-art performance on both synthetic and real-world datasets and the effectiveness of the proposed components MSLKA and LKSPP.
updated: Sat Nov 12 2022 04:04:55 GMT+0000 (UTC)
published: Sat Nov 12 2022 04:04:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト