arXiv reaDer
日本語と中国語のオフライン手書きテキスト認識用のリカレントニューラルネットワークトランスデューサ
Recurrent neural network transducer for Japanese and Chinese offline handwritten text recognition
本論文では、日本語と中国語のオフライン手書きテキストライン画像を認識するためのRNN-Transducerモデルを提案します。私たちの知る限り、これはオフライン手書きテキスト認識にRNN-Transducerモデルを採用した最初のアプローチです。提案されたモデルは、3つの主要なコンポーネントで構成されています。CNNによって入力画像から視覚的特徴を抽出し、BLSTMによって視覚的特徴をエンコードする視覚的特徴エンコーダ。埋め込みレイヤーとLSTMによって入力画像から言語的特徴を抽出してエンコードする言語コンテキストエンコーダー。完全に接続されたソフトマックス層によって、視覚的特徴と言語的特徴を組み合わせて最終的なラベルシーケンスにデコードするジョイントデコーダー。提案されたモデルは、入力画像からの視覚情報と言語情報の両方を利用します。実験では、KuzushijiとSCUT-EPTの2つのデータセットで提案されたモデルのパフォーマンスを評価しました。実験結果は、提案されたモデルがすべてのデータセットで最先端のパフォーマンスを達成することを示しています。
In this paper, we propose an RNN-Transducer model for recognizing Japanese and Chinese offline handwritten text line images. As far as we know, it is the first approach that adopts the RNN-Transducer model for offline handwritten text recognition. The proposed model consists of three main components: a visual feature encoder that extracts visual features from an input image by CNN and then encodes the visual features by BLSTM; a linguistic context encoder that extracts and encodes linguistic features from the input image by embedded layers and LSTM; and a joint decoder that combines and then decodes the visual features and the linguistic features into the final label sequence by fully connected and softmax layers. The proposed model takes advantage of both visual and linguistic information from the input image. In the experiments, we evaluated the performance of the proposed model on the two datasets: Kuzushiji and SCUT-EPT. Experimental results show that the proposed model achieves state-of-the-art performance on all datasets.
updated: Mon Jun 28 2021 08:16:44 GMT+0000 (UTC)
published: Mon Jun 28 2021 08:16:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト