arXiv reaDer
ID ドキュメント分類のインテリジェントなハイブリッド モデル
An Intelligent Hybrid Model for Identity Document Classification
デジタル化、つまり情報をデジタル形式に変換するプロセスは、ビジネスにさまざまな機会 (たとえば、生産性の向上、災害復旧、環境に優しいソリューション) と課題を提供する可能性があります。これに関連して、主な課題の 1 つは、顧客が毎日アップロードする多数のスキャンされたドキュメントを通常のビジネス プロセスとして正確に分類することです。たとえば、銀行業務 (ローンの申し込みなど) や BDM (出生、死亡、結婚) の政府登録申請のプロセスには、運転免許証やパスポートなどのいくつかの書類のアップロードが含まれる場合があります。画像分類のアプリケーションとしての課題に対処するための利用可能な研究は多くありません。さまざまな方法を使用したいくつかの研究が利用可能ですが、より正確なモデルが依然として必要です。現在の研究では、ID ドキュメントの種類を正確に定義するための堅牢な融合モデルが提案されています。提案されたアプローチは、画像が視覚的特徴とテキスト特徴に基づいて分類される 2 つの異なる方法に基づいています。統計と回帰に基づく新しいモデルが、特徴ベースの分類器の信頼度を計算するために提案されています。信頼度スコアに基づいて分類器の結果を組み合わせるために、ファジー平均融合モデルが提案されています。提案されたアプローチは、Python を使用して実装され、合成および実世界のデータセットで実験的に検証されています。提案されたモデルの性能は、受信者動作特性 (ROC) 曲線分析を使用して評価されます。
Digitization, i.e., the process of converting information into a digital format, may provide various opportunities (e.g., increase in productivity, disaster recovery, and environmentally friendly solutions) and challenges for businesses. In this context, one of the main challenges would be to accurately classify numerous scanned documents uploaded every day by customers as usual business processes. For example, processes in banking (e.g., applying for loans) or the Government Registry of BDM (Births, Deaths, and Marriages) applications may involve uploading several documents such as a driver's license and passport. There are not many studies available to address the challenge as an application of image classification. Although some studies are available which used various methods, a more accurate model is still required. The current study has proposed a robust fusion model to define the type of identity documents accurately. The proposed approach is based on two different methods in which images are classified based on their visual features and text features. A novel model based on statistics and regression has been proposed to calculate the confidence level for the feature-based classifier. A fuzzy-mean fusion model has been proposed to combine the classifier results based on their confidence score. The proposed approach has been implemented using Python and experimentally validated on synthetic and real-world datasets. The performance of the proposed model is evaluated using the Receiver Operating Characteristic (ROC) curve analysis.
updated: Mon Jun 07 2021 13:08:00 GMT+0000 (UTC)
published: Mon Jun 07 2021 13:08:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト