arXiv reaDer
SimAN:類似性を意識した正規化によるシーンテキストの自己監視表現学習の調査
SimAN: Exploring Self-Supervised Representation Learning of Scene Text via Similarity-Aware Normalization
最近、自己監視表現学習は、シーンテキスト認識コミュニティからかなりの注目を集めています。対照学習を使用した以前の研究とは異なり、私たちは別の観点から、つまり、生成的な方法で表現学習スキームを定式化することによって、この問題に取り組んでいます。通常、1つのテキスト行の間に隣接する画像パッチは、ストローク、テクスチャ、色など、類似したスタイルを持つ傾向があります。この常識に基づいて、1つの画像パッチを拡張し、隣接するパッチをガイダンスとして使用して、それ自体を回復します。具体的には、類似性認識正規化(SimAN)モジュールを提案して、さまざまなパターンを識別し、ガイドパッチから対応するスタイルを整列させます。このようにして、ネットワークは、乱雑なストロークや雑然とした背景などの複雑なパターンを区別するための表現機能を獲得します。実験は、提案されたSimANが表現品質を大幅に改善し、有望なパフォーマンスを達成することを示しています。さらに、驚くべきことに、私たちの自己監視生成ネットワークは、データ合成、テキスト画像編集、およびフォント補間に印象的な可能性を秘めていることがわかりました。これは、提案されたSimANが幅広い実用的なアプリケーションを持っていることを示唆しています。
Recently self-supervised representation learning has drawn considerable attention from the scene text recognition community. Different from previous studies using contrastive learning, we tackle the issue from an alternative perspective, i.e., by formulating the representation learning scheme in a generative manner. Typically, the neighboring image patches among one text line tend to have similar styles, including the strokes, textures, colors, etc. Motivated by this common sense, we augment one image patch and use its neighboring patch as guidance to recover itself. Specifically, we propose a Similarity-Aware Normalization (SimAN) module to identify the different patterns and align the corresponding styles from the guiding patch. In this way, the network gains representation capability for distinguishing complex patterns such as messy strokes and cluttered backgrounds. Experiments show that the proposed SimAN significantly improves the representation quality and achieves promising performance. Moreover, we surprisingly find that our self-supervised generative network has impressive potential for data synthesis, text image editing, and font interpolation, which suggests that the proposed SimAN has a wide range of practical applications.
updated: Tue Mar 22 2022 12:06:41 GMT+0000 (UTC)
published: Sun Mar 20 2022 08:43:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト