シーンテキスト認識(STR)モデルを成功させるために、合成テキスト画像ジェネレーターは、実世界からの注釈付きテキスト画像の不足を軽減しました。具体的には、さまざまな背景、フォントスタイル、テキスト形状を持つ複数のテキスト画像を生成し、STRモデルが手動で注釈を付けたデータからはアクセスできない可能性のある視覚パターンを学習できるようにします。この論文では、テキスト画像合成に使用される技術を分析し、単一のアルゴリズムの下で効果的なものを統合することにより、新しい合成テキスト画像ジェネレータ、SynthTIGERを紹介します。さらに、トレーニングデータの長さと文字分布のロングテール問題を軽減する2つの手法を提案します。私たちの実験では、SynthTIGERは、合成データセットMJSynth(MJ)とSynthText(ST)の組み合わせよりも優れたSTRパフォーマンスを実現しています。私たちのアブレーション研究は、SynthTIGERのサブコンポーネントを使用する利点と、STRモデルの合成テキスト画像を生成するためのガイドラインを示しています。私たちの実装はhttps://github.com/clovaai/synthtigerで公開されています。
For successful scene text recognition (STR) models, synthetic text image generators have alleviated the lack of annotated text images from the real world. Specifically, they generate multiple text images with diverse backgrounds, font styles, and text shapes and enable STR models to learn visual patterns that might not be accessible from manually annotated data. In this paper, we introduce a new synthetic text image generator, SynthTIGER, by analyzing techniques used for text image synthesis and integrating effective ones under a single algorithm. Moreover, we propose two techniques that alleviate the long-tail problem in length and character distributions of training data. In our experiments, SynthTIGER achieves better STR performance than the combination of synthetic datasets, MJSynth (MJ) and SynthText (ST). Our ablation study demonstrates the benefits of using sub-components of SynthTIGER and the guideline on generating synthetic text images for STR models. Our implementation is publicly available at https://github.com/clovaai/synthtiger.