エチオピア語/アムハラ語の文字は、アフリカで最も古い書記体系の1つであり、東アフリカで1億2,000万人を超える人々に、少なくとも23の言語(アムハラ語、ティグリニャ語など)を提供しています。アムハラ語の書記体系であるアブギダには、282音節、15句読点、20数字があります。アムハラ語の音節行列は、最大12個の適切な発音区別符号または母音マーカーを文字に追加することにより、34個の基本書記素/子音から導出されます。一般的な子音または母音マーカーを持つ音節は、視覚的に類似している可能性が高く、テキスト認識タスクに挑戦します。この作業では、自然のシーンでアムハラ語のスクリプトを検出および認識するための、HUST-ART、HUST-AST、ABE、およびTanaという名前の最初の包括的な公開データセットを紹介しました。また、データセット上のアムハラ語のシーンテキストを検出および認識する際の最先端の方法のパフォーマンスを評価するために、広範な実験を実施しました。評価結果は、ベンチマークのためのデータセットの堅牢性と、堅牢なアムハラ語のスクリプト検出および認識アルゴリズムの開発を促進する可能性を示しています。その結果、その結果は、いくつかの国や国際社会からの外交官を含む東アフリカの人々に利益をもたらすでしょう。
Ethiopic/Amharic script is one of the oldest African writing systems, which serves at least 23 languages (e.g., Amharic, Tigrinya) in East Africa for more than 120 million people. The Amharic writing system, Abugida, has 282 syllables, 15 punctuation marks, and 20 numerals. The Amharic syllabic matrix is derived from 34 base graphemes/consonants by adding up to 12 appropriate diacritics or vocalic markers to the characters. The syllables with a common consonant or vocalic markers are likely to be visually similar and challenge text recognition tasks. In this work, we presented the first comprehensive public datasets named HUST-ART, HUST-AST, ABE, and Tana for Amharic script detection and recognition in the natural scene. We have also conducted extensive experiments to evaluate the performance of the state of art methods in detecting and recognizing Amharic scene text on our datasets. The evaluation results demonstrate the robustness of our datasets for benchmarking and its potential of promoting the development of robust Amharic script detection and recognition algorithms. Consequently, the outcome will benefit people in East Africa, including diplomats from several countries and international communities.