arXiv reaDer
シーンテキスト認識モデルの比較の何が問題になっていますか?データセットとモデル分析
What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis
 シーンテキスト認識(STR)モデルの多くの新しい提案が近年導入されました。テクノロジーの境界を押し広げたという主張はそれぞれありますが、トレーニングデータセットと評価データセットの一貫性のない選択により、この分野では全体的かつ公正な比較がほとんど見当たりません。このホワイトペーパーでは、3つの主要な貢献によってこの困難に対処しています。まず、トレーニングデータセットと評価データセットの不整合、および不整合によるパフォーマンスギャップの結果を調べます。次に、ほとんどの既存のSTRモデルが適合する4段階の統合STRフレームワークを導入します。このフレームワークを使用すると、以前に提案されたSTRモジュールの広範な評価と、以前に未探索のモジュールの組み合わせの発見が可能になります。第三に、1つの一貫したトレーニングデータセットと評価データセットの下で、精度、速度、およびメモリ要求の観点から、パフォーマンスに対するモジュールごとの貢献度を分析します。このような分析は、既存のモジュールのパフォーマンス向上を理解するために、現在の比較の障害をクリーンアップします。
Many new proposals for scene text recognition (STR) models have been introduced in recent years. While each claim to have pushed the boundary of the technology, a holistic and fair comparison has been largely missing in the field due to the inconsistent choices of training and evaluation datasets. This paper addresses this difficulty with three major contributions. First, we examine the inconsistencies of training and evaluation datasets, and the performance gap results from inconsistencies. Second, we introduce a unified four-stage STR framework that most existing STR models fit into. Using this framework allows for the extensive evaluation of previously proposed STR modules and the discovery of previously unexplored module combinations. Third, we analyze the module-wise contributions to performance in terms of accuracy, speed, and memory demand, under one consistent set of training and evaluation datasets. Such analyses clean up the hindrance on the current comparisons to understand the performance gain of the existing modules.
updated: Wed Dec 18 2019 11:40:03 GMT+0000 (UTC)
published: Wed Apr 03 2019 10:45:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト