arXiv reaDer
マルチモーダル テキスト認識ネットワーク: ビジュアル機能とセマンティック機能の間のインタラクティブな機能強化
Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features
言語知識は、文字シーケンスを洗練するセマンティクスを提供することにより、シーン テキスト認識に大きな利点をもたらしました。ただし、言語知識は出力シーケンスに個別に適用されているため、以前の方法ではセマンティクスを十分に活用してテキスト認識の視覚的手がかりを理解していませんでした。この論文では、Multi-modAl Text Recognition Network (MATRN) と呼ばれる新しい方法を紹介します。これは、視覚的特徴と意味的特徴の間の相互作用を可能にし、認識パフォーマンスを向上させます。具体的には、MATRN は視覚的特徴と意味的特徴のペアを識別し、空間情報を意味的特徴にエンコードします。空間エンコーディングに基づいて、視覚的および意味的特徴は、他のモダリティの関連する特徴を参照することによって強化されます。さらに、MATRN は、トレーニング段階でキャラクターに関連する視覚的な手がかりを隠すことによって、セマンティックな特徴を視覚的な特徴に結合することを刺激します。私たちの実験は、MATRN が 7 つのベンチマークで最先端のパフォーマンスを大きなマージンで達成することを示していますが、2 つのモダリティの単純な組み合わせはあまり効果的でない改善を示しています。さらなる除去研究により、提案されたコンポーネントの有効性が証明されます。私たちの実装は https://github.com/wp03052/MATRN で入手できます。
Linguistic knowledge has brought great benefits to scene text recognition by providing semantics to refine character sequences. However, since linguistic knowledge has been applied individually on the output sequence, previous methods have not fully utilized the semantics to understand visual clues for text recognition. This paper introduces a novel method, called Multi-modAl Text Recognition Network (MATRN), that enables interactions between visual and semantic features for better recognition performances. Specifically, MATRN identifies visual and semantic feature pairs and encodes spatial information into semantic features. Based on the spatial encoding, visual and semantic features are enhanced by referring to related features in the other modality. Furthermore, MATRN stimulates combining semantic features into visual features by hiding visual clues related to the character in the training phase. Our experiments demonstrate that MATRN achieves state-of-the-art performances on seven benchmarks with large margins, while naive combinations of two modalities show less-effective improvements. Further ablative studies prove the effectiveness of our proposed components. Our implementation is available at https://github.com/wp03052/MATRN.
updated: Sat Aug 13 2022 17:50:20 GMT+0000 (UTC)
published: Tue Nov 30 2021 10:22:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト