テキスト認識およびテキスト行検出エンジンのパフォーマンスを測定することは、システムとその構成を客観的に比較するための重要なステップです。両方のタスクに対して別々に確立された手段があります。ただし、テキスト行検出とテキスト認識を組み合わせたシステムの品質を測定するための洗練された評価スキームはありません。単語レベルのFメジャーはよく知られた方法論であり、このコンテキストで使用されることもあります。それにもかかわらず、仮説と根拠のテキストの整合性を考慮しておらず、欺results的な結果につながる可能性があります。テキスト認識のコンテキストでの自動情報検索パイプラインのユーザーは、主に特定のシステムのエンドツーエンドのパフォーマンスに関心があるため、そのような手段が強く求められています。したがって、エンドツーエンドのテキスト認識システムの品質を評価する手段を提示します。この尺度の基礎は、確立され広く使用されている文字エラー率です。これは、元の形式では、仮説とグラウンドトゥルーステキストに合わせて制限されています。提案されたメジャーは、仮説とグラウンドトゥルースの間の異なる読み取り順序を不利にするように構成でき、テキスト行の幾何学的位置を考慮することができるという点で柔軟です。さらに、テキスト行の過剰および過小分割を無視できます。これらのパラメータを使用すると、独自のニーズに最適なメジャーを取得できます。
Measuring the performance of text recognition and text line detection engines is an important step to objectively compare systems and their configuration. There exist well-established measures for both tasks separately. However, there is no sophisticated evaluation scheme to measure the quality of a combined text line detection and text recognition system. The F-measure on word level is a well-known methodology, which is sometimes used in this context. Nevertheless, it does not take into account the alignment of hypothesis and ground truth text and can lead to deceptive results. Since users of automatic information retrieval pipelines in the context of text recognition are mainly interested in the end-to-end performance of a given system, there is a strong need for such a measure. Hence, we present a measure to evaluate the quality of an end-to-end text recognition system. The basis for this measure is the well established and widely used character error rate, which is limited -- in its original form -- to aligned hypothesis and ground truth texts. The proposed measure is flexible in a way that it can be configured to penalize different reading orders between the hypothesis and ground truth and can take into account the geometric position of the text lines. Additionally, it can ignore over- and under- segmentation of text lines. With these parameters it is possible to get a measure fitting best to its own needs.