arXiv reaDer
ゲート付き完全畳み込みネットワークを使用した、再発のない制約のない手書きテキスト認識
Recurrence-free unconstrained handwritten text recognition using gated fully convolutional network
制約のない手書きテキスト認識は、ほとんどのドキュメント分析タスクの主要なステップです。これは通常、ディープリカレントニューラルネットワークによって、より具体的には長短期記憶セルを使用して処理されます。これらのコンポーネントの主な欠点は、関連するパラメーターの数が多いことと、トレーニングおよび予測中にそれらが順次実行されることです。 LSTMセルを使用するための1つの代替ソリューションは、操作を並行して実行でき、パラメーターが少ない畳み込み層を多用することで、長時間のメモリ損失を補うことです。このホワイトペーパーでは、よく知られているCNN + LSTMアーキテクチャに代わる再発のないゲート付き完全畳み込みネットワークアーキテクチャを紹介します。私たちのモデルはCTC損失でトレーニングされており、RIMESデータセットとIAMデータセットの両方で競争力のある結果を示しています。実験の再現を可能にするすべてのコードをリリースします:https://github.com/FactoDeepLearning/LinePytorchOCR。
Unconstrained handwritten text recognition is a major step in most document analysis tasks. This is generally processed by deep recurrent neural networks and more specifically with the use of Long Short-Term Memory cells. The main drawbacks of these components are the large number of parameters involved and their sequential execution during training and prediction. One alternative solution to using LSTM cells is to compensate the long time memory loss with an heavy use of convolutional layers whose operations can be executed in parallel and which imply fewer parameters. In this paper we present a Gated Fully Convolutional Network architecture that is a recurrence-free alternative to the well-known CNN+LSTM architectures. Our model is trained with the CTC loss and shows competitive results on both the RIMES and IAM datasets. We release all code to enable reproduction of our experiments: https://github.com/FactoDeepLearning/LinePytorchOCR.
updated: Wed Dec 09 2020 10:30:13 GMT+0000 (UTC)
published: Wed Dec 09 2020 10:30:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト