筆記体である葛子字は、8世紀から1000年以上にわたって日本で使用されてきました。文学、科学、数学、さらには料理など、さまざまなトピックに関する300万冊以上の本が保存されています。しかし、1900年に日本語の筆記システムが変更されたため、葛子寺は通常の学校のカリキュラムに含まれていません。そのため、最近ではほとんどの日本人は150年前に書かれた本や印刷された本を読むことができません。博物館や図書館は、火災、地震、津波に対する保護手段として、これらの歴史的文書のデジタルコピーを作成することに多大な努力を費やしてきました。その結果、少数の特別に訓練された専門家だけが読むことができる歴史文書の数億枚の写真を含むデータセットができました。そのため、機械学習を使用してこれらの歴史的なテキストを自動的に認識し、現代の日本語の文字に転写することに大きな関心が寄せられています。それにも関わらず、葛子寺の認識におけるいくつかの課題により、既存のシステムのパフォーマンスは非常に低くなりました。これらの課題に取り組むために、私たちはテキストのページを与えられたすべての文字の位置とアイデンティティを予測する残留U-Netアーキテクチャを使用してテキストのページ全体を共同で認識する新しいエンドツーエンドモデルであるKuroNetを提案します前処理)。これにより、モデルは長距離のコンテキスト、大規模な語彙、および標準化されていない文字レイアウトを処理できます。私たちのシステムは、前近代的な日本語文書の大部分を正常に認識できることを実証しますが、システムが制限されている領域を探索し、将来の作業の方向性を提案します。
Kuzushiji, a cursive writing style, had been used in Japan for over a thousand years starting from the 8th century. Over 3 millions books on a diverse array of topics, such as literature, science, mathematics and even cooking are preserved. However, following a change to the Japanese writing system in 1900, Kuzushiji has not been included in regular school curricula. Therefore, most Japanese natives nowadays cannot read books written or printed just 150 years ago. Museums and libraries have invested a great deal of effort into creating digital copies of these historical documents as a safeguard against fires, earthquakes and tsunamis. The result has been datasets with hundreds of millions of photographs of historical documents which can only be read by a small number of specially trained experts. Thus there has been a great deal of interest in using Machine Learning to automatically recognize these historical texts and transcribe them into modern Japanese characters. Nevertheless, several challenges in Kuzushiji recognition have made the performance of existing systems extremely poor. To tackle these challenges, we propose KuroNet, a new end-to-end model which jointly recognizes an entire page of text by using a residual U-Net architecture which predicts the location and identity of all characters given a page of text (without any pre-processing). This allows the model to handle long range context, large vocabularies, and non-standardized character layouts. We demonstrate that our system is able to successfully recognize a large fraction of pre-modern Japanese documents, but also explore areas where our system is limited and suggest directions for future work.