arXiv reaDer
歴史的写本コレクションにおけるニューラルワード検索
Neural Word Search in Historical Manuscript Collections
 テキストクエリが与えられた歴史的写本のコレクション内の単語画像をセグメント化して取得する問題に対処します。これは一般に「ワードスポッティング」と呼ばれます。この目的のために、最初に、Ctrl-F-Netを吹き込んだディープニューラルネットワークに基づくエンドツーエンドのトレーニング可能なモデルを提案します。モデルは同時に領域提案を生成し、それらを単語埋め込みスペースに埋め込み、そこで検索が実行されます。さらに、Ctrl-F-Miniと呼ばれる簡易バージョンを導入します。より簡単にセグメント化された原稿に制限されていますが、同様のパフォーマンスでより高速です。一般的なベンチマークデータセットで両方のモデルを評価し、以前の最先端技術を上回っています。最後に、歴史家と協力して、Ctrl-F-Netを使用して、2世紀にわたって書かれた10万ページを超える大規模な原稿コレクションを検索します。トレーニングページが11ページしかないため、原稿ベースの歴史的研究で大規模なデータ収集が可能になります。これにより、データ収集が高速化され、原稿の数が桁違いに処理されます。人文科学で古い原稿を研究するために必要な時間のかかる手作業を考えると、単語スポッティングのための迅速で堅牢なツールは、歴史、宗教、言語などのドメインに革命を起こす可能性があります。
We address the problem of segmenting and retrieving word images in collections of historical manuscripts given a text query. This is commonly referred to as "word spotting". To this end, we first propose an end-to-end trainable model based on deep neural networks that we dub Ctrl-F-Net. The model simultaneously generates region proposals and embeds them into a word embedding space, wherein a search is performed. We further introduce a simplified version called Ctrl-F-Mini. It is faster with similar performance, though it is limited to more easily segmented manuscripts. We evaluate both models on common benchmark datasets and surpass the previous state of the art. Finally, in collaboration with historians, we employ the Ctrl-F-Net to search within a large manuscript collection of over 100 thousand pages, written across two centuries. With only 11 training pages, we enable large scale data collection in manuscript-based historical research. This results in a speed up of data collection and the number of manuscripts processed by orders of magnitude. Given the time consuming manual work required to study old manuscripts in the humanities, quick and robust tools for word spotting has the potential to revolutionise domains like history, religion and language.
updated: Tue Mar 31 2020 18:51:13 GMT+0000 (UTC)
published: Thu Dec 06 2018 19:48:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト