TextAdaIN: Fine-Grained AdaIN for Robust Text Recognition
畳み込み層の特性を活用して、画像分類器は非常に効果的です。ただし、最近の研究では、多くの場合、画像のセマンティクスを維持しながら操作しやすいグローバルな画像統計に過度に依存していることが明らかになっています。テキスト認識では、ネットワークが過度に依存しているのはむしろローカル画像統計であることを明らかにします。これに動機付けられて、全体的なテキスト認識パフォーマンスを向上させるローカル統計への依存を規制するアプローチを提案します。 TextAdaINと呼ばれるこのメソッドは、フィーチャマップにローカル歪みを作成し、ネットワークがローカル統計に過剰適合するのを防ぎます。これは、ミニバッチ内のサンプル間で細粒度の特徴統計を意図的に不一致にすることによって行われます。 TextAdaINの単純さにもかかわらず、広範な実験は、他のより複雑な方法と比較してその有効性を示しています。 TextAdaINは、標準の手書きテキスト認識ベンチマークで最先端の結果を実現します。さらに、複数のアーキテクチャとシーンテキスト認識のドメインに一般化されます。さらに、TextAdaINを統合すると、画像の破損に対する堅牢性が向上することを示します。
Leveraging the characteristics of convolutional layers, image classifiers are extremely effective. However, recent works have exposed that in many cases they immoderately rely on global image statistics that are easy to manipulate while preserving image semantics. In text recognition, we reveal that it is rather the local image statistics which the networks overly depend on. Motivated by this, we suggest an approach to regulate the reliance on local statistics that improves overall text recognition performance. Our method, termed TextAdaIN, creates local distortions in the feature map which prevent the network from overfitting to the local statistics. It does so by deliberately mismatching fine-grained feature statistics between samples in a mini-batch. Despite TextAdaIN's simplicity, extensive experiments show its effectiveness compared to other, more complicated methods. TextAdaIN achieves state-of-the-art results on standard handwritten text recognition benchmarks. Additionally, it generalizes to multiple architectures and to the domain of scene text recognition. Furthermore, we demonstrate that integrating TextAdaIN improves robustness towards image corruptions.
updated: Sun May 09 2021 10:47:48 GMT+0000 (UTC)
published: Sun May 09 2021 10:47:48 GMT+0000 (UTC)
