NRTR: A No-Recurrence Sequence-to-Sequence Model For Scene Text Recognition
  シーンテキスト認識は、さまざまなアプリケーションへの重要性のため、非常に多くの研究を集めています。既存の方法は、主に再発または畳み込みベースのネットワークを採用しています。優れたパフォーマンスは得られていますが、これらの方法には2つの制限があります。RNNの内部再発によるトレーニング速度の低下と、長期的な特徴抽出のための畳み込み層の積み重ねによる高い複雑さです。この論文は、NRTRと名付けられた、繰り返しと畳み込みを完全に省く、繰り返しなしのシーケンス間テキスト認識プログラムを初めて提案します。 NRTRは、エンコーダーがデコーダーのパラダイムに従います。エンコーダーはスタック自己注意を使用して画像特徴を抽出し、デコーダーはスタック自己注意を適用して、エンコーダ出力に基づいてテキストを認識します。 NRTRは自己注意メカニズムのみに依存しているため、より多くの並列化とより少ない複雑さでトレーニングできます。シーン画像のテキストと背景には大きなばらつきがあることを考慮して、モダリティ変換ブロックをさらに設計して、2D入力画像を1Dシーケンスに効果的に変換し、エンコーダーと組み合わせてより識別的な特徴を抽出します。 NRTRは、定期的なベンチマークと不規則なベンチマークの両方で最先端の、または非常に競争力のあるパフォーマンスを達成しますが、文献の最良のモデルと比較してわずかなトレーニング時間で済みます(少なくとも8倍高速)。
Scene text recognition has attracted a great many researches due to its importance to various applications. Existing methods mainly adopt recurrence or convolution based networks. Though have obtained good performance, these methods still suffer from two limitations: slow training speed due to the internal recurrence of RNNs, and high complexity due to stacked convolutional layers for long-term feature extraction. This paper, for the first time, proposes a no-recurrence sequence-to-sequence text recognizer, named NRTR, that dispenses with recurrences and convolutions entirely. NRTR follows the encoder-decoder paradigm, where the encoder uses stacked self-attention to extract image features, and the decoder applies stacked self-attention to recognize texts based on encoder output. NRTR relies solely on self-attention mechanism thus could be trained with more parallelization and less complexity. Considering scene image has large variation in text and background, we further design a modality-transform block to effectively transform 2D input images to 1D sequences, combined with the encoder to extract more discriminative features. NRTR achieves state-of-the-art or highly competitive performance on both regular and irregular benchmarks, while requires only a small fraction of training time compared to the best model from the literature (at least 8 times faster).
updated: Thu Oct 10 2019 11:30:21 GMT+0000 (UTC)
published: Mon Jun 04 2018 02:10:35 GMT+0000 (UTC)
