arXiv reaDer
Marior:野生でのドキュメントの歪み補正のためのマージンの削除と反復的なコンテンツの修正
Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild
カメラでキャプチャされたドキュメント画像は、通常、遠近法や幾何学的な変形に悩まされます。視力の低下やOCRシステムのパフォーマンスの低下を考慮する場合は、これらを修正することは非常に価値があります。最近の学習ベースの方法は、正確にトリミングされたドキュメント画像に集中的に焦点を合わせています。ただし、これは、マージンが大きいかマージンがないドキュメントイメージなど、実際の課題を克服するには不十分な場合があります。この非実用性のために、ユーザーは、大きな周辺領域に遭遇したときに、ドキュメントを正確に切り抜くのに苦労します。同時に、余白のない画像の歪み補正は、依然として克服できない問題です。私たちの知る限りでは、実際のドキュメント画像を修正するための完全で効果的なパイプラインはまだありません。この問題に対処するために、Marior(Margin Removal and \ Iterative Content Rectification)と呼ばれる新しいアプローチを提案します。 Mariorは進歩的な戦略に従って、歪み補正の品質と読みやすさを粗い方法から細かい方法で繰り返し改善します。具体的には、パイプラインを2つのモジュールに分割します。マージン除去モジュール(MRM)と反復コンテンツ修正モジュール(ICRM)です。まず、入力画像のセグメンテーションマスクを予測してマージンを削除し、それによって予備的な結果を取得します。次に、高密度の変位フローを生成して画像をさらに洗練し、コンテンツを意識した修正を実現します。改良の反復回数を適応的に決定します。実験は、公開ベンチマークでの私たちの方法の最先端のパフォーマンスを示しています。リソースはhttps://github.com/ZZZHANG-jx/Mariorでさらに比較できます。
Camera-captured document images usually suffer from perspective and geometric deformations. It is of great value to rectify them when considering poor visual aesthetics and the deteriorated performance of OCR systems. Recent learning-based methods intensively focus on the accurately cropped document image. However, this might not be sufficient for overcoming practical challenges, including document images either with large marginal regions or without margins. Due to this impracticality, users struggle to crop documents precisely when they encounter large marginal regions. Simultaneously, dewarping images without margins is still an insurmountable problem. To the best of our knowledge, there is still no complete and effective pipeline for rectifying document images in the wild. To address this issue, we propose a novel approach called Marior (Margin Removal and \Iterative Content Rectification). Marior follows a progressive strategy to iteratively improve the dewarping quality and readability in a coarse-to-fine manner. Specifically, we divide the pipeline into two modules: margin removal module (MRM) and iterative content rectification module (ICRM). First, we predict the segmentation mask of the input image to remove the margin, thereby obtaining a preliminary result. Then we refine the image further by producing dense displacement flows to achieve content-aware rectification. We determine the number of refinement iterations adaptively. Experiments demonstrate the state-of-the-art performance of our method on public benchmarks. The resources are available at https://github.com/ZZZHANG-jx/Marior for further comparison.
updated: Sat Jul 23 2022 13:14:27 GMT+0000 (UTC)
published: Sat Jul 23 2022 13:14:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト