arXiv reaDer
ロバストなシーンテキスト認識のための視覚的意味的特徴学習の分離
Decoupling Visual-Semantic Feature Learning for Robust Scene Text Recognition
セマンティック情報は、シーンテキスト認識に効果的であることが証明されています。ほとんどの既存の方法は、注意ベースのデコーダーで視覚情報と意味情報の両方を結合する傾向があります。その結果、意味的特徴の学習は、語彙依存と呼ばれるトレーニングセットの限られた語彙にバイアスをかける傾向があります。この論文では、問題に対処するための新しいビジュアルセマンティックデカップリングネットワーク(VSDN)を提案します。私たちのVSDNには、より純粋な視覚的および意味的特徴表現をそれぞれ学習するための視覚的デコーダー(VD)とセマンティックデコーダー(SD)が含まれています。さらに、セマンティックエンコーダー(SE)は、SDに一致するように設計されており、簡単な単語修正タスクを介して、追加の安価な大きな語彙によって一緒に事前トレーニングすることができます。したがって、セマンティック機能は、視覚的機能の配置をガイドし、最終的な文字表現を充実させるために、より偏りがなく正確です。実験によると、私たちの方法は、標準ベンチマークで最先端または競争力のある結果を達成し、トレーニングセットの語彙サイズが小さい状況では、一般的なベースラインを大幅に上回っています。
Semantic information has been proved effective in scene text recognition. Most existing methods tend to couple both visual and semantic information in an attention-based decoder. As a result, the learning of semantic features is prone to have a bias on the limited vocabulary of the training set, which is called vocabulary reliance. In this paper, we propose a novel Visual-Semantic Decoupling Network (VSDN) to address the problem. Our VSDN contains a Visual Decoder (VD) and a Semantic Decoder (SD) to learn purer visual and semantic feature representation respectively. Besides, a Semantic Encoder (SE) is designed to match SD, which can be pre-trained together by additional inexpensive large vocabulary via a simple word correction task. Thus the semantic feature is more unbiased and precise to guide the visual feature alignment and enrich the final character representation. Experiments show that our method achieves state-of-the-art or competitive results on the standard benchmarks, and outperforms the popular baseline by a large margin under circumstances where the training set has a small size of vocabulary.
updated: Wed Nov 24 2021 09:14:23 GMT+0000 (UTC)
published: Wed Nov 24 2021 09:14:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト