複数の画像間での正確なホモグラフィ推定は、多くのコンピュータービジョンアプリケーションの前提条件です。今日のデジタル時代に特に関連するアプリケーションの1つは、情報抽出のための保険金請求フォームなど、スキャンまたはカメラでキャプチャされたドキュメント画像の調整です。従来の学習ベースのアプローチは、適切な勾配がないためにパフォーマンスが低下します。実際のシーン画像でのホモグラフィ推定のための特徴ベースのキーポイント抽出技術は、シャープなテキストエッジに起因する非常に多数の一貫性のないキーポイントを検出するか、照明の変化とドキュメント画像間の視点の違いにより不正確なキーポイント対応を生成します。本論文では、文字ベースのキーポイントと参照テンプレートを使用して、スキャンまたはカメラでキャプチャされたドキュメント画像を位置合わせするための新しいアルゴリズムを提案します。このアルゴリズムは高速かつ正確であり、Tesseractなどの標準の光学文字認識(OCR)エンジンを使用して、2つの画像間の正確なキーポイント対応を識別するために使用される文字ベースの明確なキーポイントを見つけます。最後に、キーポイントを使用して、テストドキュメントとテンプレート間のホモグラフィマッピングを計算します。健康保険請求フォームで構成される2つの実世界の匿名化されたデータセットの情報抽出のために提案されたアプローチを評価し、結果は提案された手法の実行可能性をサポートします。
Precise homography estimation between multiple images is a pre-requisite for many computer vision applications. One application that is particularly relevant in today's digital era is the alignment of scanned or camera-captured document images such as insurance claim forms for information extraction. Traditional learning based approaches perform poorly due to the absence of an appropriate gradient. Feature based keypoint extraction techniques for homography estimation in real scene images either detect an extremely large number of inconsistent keypoints due to sharp textual edges, or produce inaccurate keypoint correspondences due to variations in illumination and viewpoint differences between document images. In this paper, we propose a novel algorithm for aligning scanned or camera-captured document images using character based keypoints and a reference template. The algorithm is both fast and accurate and utilizes a standard Optical character recognition (OCR) engine such as Tesseract to find character based unambiguous keypoints, which are utilized to identify precise keypoint correspondences between two images. Finally, the keypoints are used to compute the homography mapping between a test document and a template. We evaluated the proposed approach for information extraction on two real world anonymized datasets comprised of health insurance claim forms and the results support the viability of the proposed technique.