アテンションベースのシーンテキストレコグナイザーは大きな成功を収めており、よりコンパクトな中間表現を活用して、RNNベースのエンコーダーデコーダーアーキテクチャによって1dまたは2dアテンションを学習します。ただし、このような方法では、エンコードされた機能間の類似性が高いと、RNNベースのローカル注意メカニズムの下で注意が混乱するため、注意ドリフトの問題が発生します。さらに、RNNベースの方法は、並列化が不十分なため効率が低くなります。これらの問題を克服するために、(1)入出力注意をエンコードするだけでなく、エンコーダ内の特徴-特徴およびターゲット-ターゲット関係をエンコードする自己注意を学習する自己注意ベースのシーンテキスト認識器であるMASTERを提案します。デコーダーと(2)空間歪みに対するより強力で堅牢な中間表現を学習し、(3)高いトレーニング並列化と効率的なメモリキャッシュメカニズムによる高速推論により、優れたトレーニング効率を実現します。さまざまなベンチマークでの広範な実験により、通常のシーンテキストと不規則なシーンテキストの両方でMASTERの優れたパフォーマンスが実証されています。 Pytorchコードはhttps://github.com/wenwenyu/MASTER-pytorchにあり、Tensorflowコードはhttps://github.com/jiangxiluning/MASTER-TFにあります。
Attention-based scene text recognizers have gained huge success, which leverages a more compact intermediate representation to learn 1d- or 2d- attention by a RNN-based encoder-decoder architecture. However, such methods suffer from attention-drift problem because high similarity among encoded features leads to attention confusion under the RNN-based local attention mechanism. Moreover, RNN-based methods have low efficiency due to poor parallelization. To overcome these problems, we propose the MASTER, a self-attention based scene text recognizer that (1) not only encodes the input-output attention but also learns self-attention which encodes feature-feature and target-target relationships inside the encoder and decoder and (2) learns a more powerful and robust intermediate representation to spatial distortion, and (3) owns a great training efficiency because of high training parallelization and a high-speed inference because of an efficient memory-cache mechanism. Extensive experiments on various benchmarks demonstrate the superior performance of our MASTER on both regular and irregular scene text. Pytorch code can be found at https://github.com/wenwenyu/MASTER-pytorch, and Tensorflow code can be found at https://github.com/jiangxiluning/MASTER-TF.