最近、写真シナリオにおける文書画像の分析と認識に関する研究への関心が高まっています。ただし、手動によるアノテーションは時間がかかり非現実的であるため、この新たな課題に対応するラベル付きデータセットが不足していることが大きな障害となります。この問題に取り組むために、手動の注釈プロセスを写真を撮るという単純なステップに合理化する新しい方法である DocAligner を紹介します。 DocAligner は、写真ドキュメント画像とそのクリーンな対応物との間に密な対応関係を確立することでこれを実現します。これにより、クリーンな文書画像内の既存の注釈を写真画像に自動的に転送できるようになり、手動のラベル付けでは使用できないラベルを自動的に取得できるようになります。文書画像の特有の特性を考慮して、DocAligner にはいくつかの革新的な機能が組み込まれています。まず、文書のエッジに基づいた非剛体事前位置合わせ技術を提案します。これにより、文書画像に存在する大幅な全体的なシフトや反復パターンによって引き起こされる干渉が効果的に排除されます。次に、大きなシフトを処理し、高精度を確保するために、グローバル相関層とローカル相関層を組み合わせた階層的位置合わせアプローチを導入します。さらに、文書画像におけるきめの細かい要素の重要性を考慮して、高解像度空間での出力を強化するための詳細反復リファインメントモジュールを提示します。 DocAligner をトレーニングするために、合成データセットを構築し、自己教師あり学習アプローチを導入して、実世界のデータに対する堅牢性を強化します。広範な実験を通じて、DocAligner と取得したデータセットの有効性を実証します。データセットとコードは一般に公開されます。
Recently, there has been a growing interest in research concerning document image analysis and recognition in photographic scenarios. However, the lack of labeled datasets for this emerging challenge poses a significant obstacle, as manual annotation can be time-consuming and impractical. To tackle this issue, we present DocAligner, a novel method that streamlines the manual annotation process to a simple step of taking pictures. DocAligner achieves this by establishing dense correspondence between photographic document images and their clean counterparts. It enables the automatic transfer of existing annotations in clean document images to photographic ones and helps to automatically acquire labels that are unavailable through manual labeling. Considering the distinctive characteristics of document images, DocAligner incorporates several innovative features. First, we propose a non-rigid pre-alignment technique based on the document's edges, which effectively eliminates interference caused by significant global shifts and repetitive patterns present in document images. Second, to handle large shifts and ensure high accuracy, we introduce a hierarchical aligning approach that combines global and local correlation layers. Furthermore, considering the importance of fine-grained elements in document images, we present a details recurrent refinement module to enhance the output in a high-resolution space. To train DocAligner, we construct a synthetic dataset and introduce a self-supervised learning approach to enhance its robustness for real-world data. Through extensive experiments, we demonstrate the effectiveness of DocAligner and the acquired dataset. Datasets and codes will be publicly available.