arXiv reaDer
オフラインオンラインマルチモーダルディープネットワークを使用したインド手書きスクリプト識別
Indic Handwritten Script Identification using Offline-Online Multimodal Deep Network
  この論文では、トレーニング段階で文字レベルのデータのみを使用した単語レベルのインド語スクリプト識別の新しいアプローチを提案します。トレーニングにキャラクターレベルデータを使用する利点については、セクションIで概説しました。スクリプト識別タスクのために、両方のモダリティからの情報を共同で探索するために、入力のデータのオフラインモダリティとオンラインモダリティの両方を使用するマルチモーダルディープネットワークを使用します。入力としてどちらかのモダリティで手書きデータを取得し、インターモダリティ変換により反対のモダリティが生成されます。その後、このオフラインとオンラインのモダリティペアをネットワークに送ります。したがって、両方のモダリティからの情報を利用する利点とともに、オフラインとオンラインの両方のスクリプト識別のための単一のフレームワークとして同時に機能し、個々のモダリティ用の2つの別個のスクリプト識別モジュールを設計する必要性を軽減できます。もう1つの大きな貢献は、ネットワークに供給されるデータの実際の起源を考慮して、適応的に結合するオフラインおよびオンラインモダリティからの情報を結合する新しい条件付きマルチモーダルフュージョンスキームを提案することです。英語と6つのインド語スクリプトで構成されるデータセットで徹底的な実験が行われました。提案されたフレームワークは、明確なマージンを備えた手作りの機能と深層学習ベースのメソッドとともに、従来の分類器に基づいたさまざまなフレームワークよりも明らかに優れています。広範な実験により、キャラクターレベルのトレーニングデータのみを使用すると、フレームワークのワードレベルデータを使用した従来のトレーニングで得られたものと同様の最新のパフォーマンスを達成できることがわかります。
In this paper, we propose a novel approach of word-level Indic script identification using only character-level data in training stage. The advantages of using character level data for training have been outlined in section I. Our method uses a multimodal deep network which takes both offline and online modality of the data as input in order to explore the information from both the modalities jointly for script identification task. We take handwritten data in either modality as input and the opposite modality is generated through intermodality conversion. Thereafter, we feed this offline-online modality pair to our network. Hence, along with the advantage of utilizing information from both the modalities, it can work as a single framework for both offline and online script identification simultaneously which alleviates the need for designing two separate script identification modules for individual modality. One more major contribution is that we propose a novel conditional multimodal fusion scheme to combine the information from offline and online modality which takes into account the real origin of the data being fed to our network and thus it combines adaptively. An exhaustive experiment has been done on a data set consisting of English and six Indic scripts. Our proposed framework clearly outperforms different frameworks based on traditional classifiers along with handcrafted features and deep learning based methods with a clear margin. Extensive experiments show that using only character level training data can achieve state-of-art performance similar to that obtained with traditional training using word level data in our framework.
updated: Tue Oct 15 2019 22:49:04 GMT+0000 (UTC)
published: Fri Feb 23 2018 14:49:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト