arXiv reaDer
デバイス上のドキュメントローカリゼーションのための高度なハフベースの方法
Advanced Hough-based method for on-device document localization
より厳格なプライバシーおよびセキュリティ要件の出現に伴い、デバイス上のドキュメント認識システムの需要が高まっています。このようなシステムでは、エンドデバイスからサードパーティの情報処理サーバーへのデータ転送はありません。応答時間は、デバイス上のドキュメント認識のユーザーエクスペリエンスに不可欠です。ディスクリートGPU、強力なCPU、またはスマートフォンなどのコンシューマーグレードのエンドデバイスでの大容量のRAMが利用できないことと相まって、時間制限により、デバイス上で実行するために適用されるアルゴリズムの計算の複雑さに大きな制約が課せられます。この作業では、ドキュメントの内容やその内部構造に関する事前の知識がなくても、画像内のドキュメントの場所を検討します。公開された作品によると、少なくとも5つのシステムがデバイス上のドキュメントの場所を特定するためのソリューションを提供しています。これらのシステムはすべて、ハフベースと見なすことができるロケーション方法を使用します。このようなシステムの精度は、限られた計算リソースを考慮して設計されていない最先端のソリューションの精度よりも低いようです。高度なハフベースの方法を提案します。他のアプローチとは対照的に、それは中央投影モデルの幾何学的不変量を説明し、ドキュメント境界検出のためにエッジとカラーの両方の特徴を組み合わせます。提案された方法は、ニューラルネットワークのようなU-netを上回り、精度の点でSmartDocデータセットの2番目に良い結果を可能にしました。より挑戦的なMIDV-500データセットで評価した場合、提案されたアルゴリズムは、公開された方法と比較して最高の精度を保証しました。私たちの方法は、デバイス上の計算への適用性を保持していました。
The demand for on-device document recognition systems increases in conjunction with the emergence of more strict privacy and security requirements. In such systems, there is no data transfer from the end device to a third-party information processing servers. The response time is vital to the user experience of on-device document recognition. Combined with the unavailability of discrete GPUs, powerful CPUs, or a large RAM capacity on consumer-grade end devices such as smartphones, the time limitations put significant constraints on the computational complexity of the applied algorithms for on-device execution. In this work, we consider document location in an image without prior knowledge of the document content or its internal structure. In accordance with the published works, at least 5 systems offer solutions for on-device document location. All these systems use a location method which can be considered Hough-based. The precision of such systems seems to be lower than that of the state-of-the-art solutions which were not designed to account for the limited computational resources. We propose an advanced Hough-based method. In contrast with other approaches, it accounts for the geometric invariants of the central projection model and combines both edge and color features for document boundary detection. The proposed method allowed for the second best result for SmartDoc dataset in terms of precision, surpassed by U-net like neural network. When evaluated on a more challenging MIDV-500 dataset, the proposed algorithm guaranteed the best precision compared to published methods. Our method retained the applicability to on-device computations.
updated: Fri Jun 18 2021 08:17:45 GMT+0000 (UTC)
published: Fri Jun 18 2021 08:17:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト