構造化テキスト、つまり特定の形式に従うテキストの認識の問題を研究し、バイアスの正規表現(正規表現)を指定することによって構造化テキストの認識精度を向上させることを提案します。偏った認識機能は、指定された正規表現に一致するテキストを大幅に改善された精度で認識しますが、他のテキストの劣化は一般にわずかです。バイアスは、正規表現を加重有限状態トランスデューサ(WFST)としてモデル化し、動的置換を介してデコーダに注入することで実現されます。単一のハイパーパラメータがバイアス強度を制御します。この方法は、既知の形式のテキスト行を認識したり、ドメイン語彙の単語を含んだりする場合に役立ちます。例としては、運転免許証番号、処方箋の薬名などがあります。印刷および手書きの構造化テキストのデータセットに対するregexバイアスの有効性を示し、その副作用を測定します。
We study the problem of recognizing structured text, i.e. text that follows certain formats, and propose to improve the recognition accuracy of structured text by specifying regular expressions (regexes) for biasing. A biased recognizer recognizes text that matches the specified regexes with significantly improved accuracy, at the cost of a generally small degradation on other text. The biasing is realized by modeling regexes as a Weighted Finite-State Transducer (WFST) and injecting it into the decoder via dynamic replacement. A single hyperparameter controls the biasing strength. The method is useful for recognizing text lines with known formats or containing words from a domain vocabulary. Examples include driver license numbers, drug names in prescriptions, etc. We demonstrate the efficacy of regex biasing on datasets of printed and handwritten structured text and measures its side effects.