フリー レイアウト ページでの手書きテキスト認識 (HTR) は、手書きドキュメントのデジタル化とそのコンテンツの再利用に関連するブーストを提供できる、挑戦的な画像理解タスクです。歴史的文書を扱う場合、文体の多様性とページ品質の低下により、この作業はさらに困難になります。最先端の HTR アプローチは通常、シーケンス モデリング用の再帰構造と視覚的特徴抽出用の畳み込みニューラル ネットワークを結合します。畳み込みカーネルは固定グリッド上で定義され、入力画像上を移動しながらすべての入力ピクセルに個別に焦点を当てるため、この戦略では、手書き文字は同じドキュメント内でも形状、スケール、方向が異なる可能性があり、インク ピクセルは背景のものよりも関連性があります。これらの特定の HTR の問題に対処するために、変形可能な畳み込みを採用することを提案します。変形可能な畳み込みは、手元の入力に応じて変形し、テキストの幾何学的なバリエーションによりよく適応することができます。 2 つの変形可能なアーキテクチャを設計し、最新のデータセットと過去のデータセットの両方で広範な実験を行います。実験結果は、HTR タスクに対する変形可能な畳み込みの適合性を確認しています。
Handwritten Text Recognition (HTR) in free-layout pages is a challenging image understanding task that can provide a relevant boost to the digitization of handwritten documents and reuse of their content. The task becomes even more challenging when dealing with historical documents due to the variability of the writing style and degradation of the page quality. State-of-the-art HTR approaches typically couple recurrent structures for sequence modeling with Convolutional Neural Networks for visual feature extraction. Since convolutional kernels are defined on fixed grids and focus on all input pixels independently while moving over the input image, this strategy disregards the fact that handwritten characters can vary in shape, scale, and orientation even within the same document and that the ink pixels are more relevant than the background ones. To cope with these specific HTR difficulties, we propose to adopt deformable convolutions, which can deform depending on the input at hand and better adapt to the geometric variations of the text. We design two deformable architectures and conduct extensive experiments on both modern and historical datasets. Experimental results confirm the suitability of deformable convolutions for the HTR task.