arXiv reaDer
KISS:シーンテキスト認識のためにシンプルに保つ
KISS: Keeping It Simple for Scene Text Recognition
 過去数年にわたって、シーンテキスト認識のためのいくつかの新しい方法が提案されてきました。これらの方法のほとんどは、ニューラルネットワークの新しいビルディングブロックを提案しています。これらの新しいビルディングブロックは、シーンテキスト認識のタスクに合わせて特別に調整されているため、他のタスクではほとんど使用できません。このホワイトペーパーでは、ニューラルネットワークの既製のビルディングブロックのみで構成されるシーンテキスト認識の新しいモデルを紹介します。モデル(KISS)は、2つのResNetベースの特徴抽出、空間変換、および変換で構成されています。モデルは一般公開されている合成トレーニングデータでのみトレーニングし、一連のシーンテキスト認識ベンチマークで評価します。このモデルでは、2Dアテンションなどの方法を使用しませんが、または画像補正。
Over the past few years, several new methods for scene text recognition have been proposed. Most of these methods propose novel building blocks for neural networks. These novel building blocks are specially tailored for the task of scene text recognition and can thus hardly be used in any other tasks. In this paper, we introduce a new model for scene text recognition that only consists of off-the-shelf building blocks for neural networks. Our model (KISS) consists of two ResNet based feature extractors, a spatial transformer, and a transformer. We train our model only on publicly available, synthetic training data and evaluate it on a range of scene text recognition benchmarks, where we reach state-of-the-art or competitive performance, although our model does not use methods like 2D-attention, or image rectification.
updated: Tue Nov 19 2019 17:13:18 GMT+0000 (UTC)
published: Tue Nov 19 2019 17:13:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト