arXiv reaDer
SPIN:シーンテキスト認識のための構造保存内部オフセットネットワーク
SPIN: Structure-Preserving Inner Offset Network for Scene Text Recognition
 任意のテキストの外観は、シーンのテキスト認識タスクに大きな課題をもたらします。既存の作品は主に、遠近の歪み、線の曲率、またはその他のスタイルのバリエーションを含む形状の歪みを考慮して問題を処理します。したがって、空間トランスフォーマーに基づく方法は広く研究されています。ただし、複雑なシーンでの色の問題はあまり注目されていません。この作業では、ネットワーク内のソースデータの色操作を可能にする新しい学習可能な幾何学的に無関係なモジュールである構造保存内部オフセットネットワーク(SPIN)を紹介します。この差別化可能なモジュールを認識アーキテクチャの前に挿入して、下流のタスクを容易にし、ニューラルネットワークに既存の空間修正ではなく入力強度をアクティブに変換する機能を与えることができます。また、既知の空間変換を補完するモジュールとして機能し、それらとの独立した共同作業の両方で機能します。広範な実験により、SPINを使用すると、最新の技術と比較して複数のテキスト認識ベンチマークが大幅に改善されることが示されています。
Arbitrary text appearance poses a great challenge in scene text recognition tasks. Existing works mostly handle with the problem in consideration of the shape distortion, including perspective distortions, line curvature or other style variations. Therefore, methods based on spatial transformers are extensively studied. However, chromatic difficulties in complex scenes have not been paid much attention on. In this work, we introduce a new learnable geometric-unrelated module, the Structure-Preserving Inner Offset Network (SPIN), which allows the color manipulation of source data within the network. This differentiable module can be inserted before any recognition architecture to ease the downstream tasks, giving neural networks the ability to actively transform input intensity rather than the existing spatial rectification. It can also serve as a complementary module to known spatial transformations and work in both independent and collaborative ways with them. Extensive experiments show that the use of SPIN results in a significant improvement on multiple text recognition benchmarks compared to the state-of-the-arts.
updated: Mon Oct 25 2021 09:33:59 GMT+0000 (UTC)
published: Wed May 27 2020 01:47:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト