arXiv reaDer
DEXTER:電子医療健康文書から目次を抽出するエンドツーエンドシステム
DEXTER: An end-to-end system to extract table contents from electronic medical health documents
本稿では、電子カルテ(EHR)やメリットの説明(EOB)などの医療文書に存在するテーブルから情報を抽出するエンドツーエンドシステムであるDEXTERを提案します。 DEXTERは、次の4つのサブシステムステージで構成されています。i)テーブル検出ii)テーブルタイプ分類iii)セル検出。 iv)細胞内容物の抽出。 CDeC-Netアーキテクチャとテーブル検出の非最大抑制を使用した2段階の転移学習ベースのアプローチを提案します。行と列を検出するための画像サイズに基づくパラメーター化されたカーネルを使用して、テーブルタイプの分類とセル検出のための従来のコンピュータービジョンベースのアプローチを設計します。最後に、既存のOCRエンジンTessaractを使用して、検出されたセルからテキストを抽出します。システムを評価するために、境界、部分境界、境界なし、境界なしなど、さまざまなテーブル構造をカバーするさまざまなドキュメント(外観の観点から)で構成される実際の医療データセット(Meddataと呼ばれる)のサンプルに手動で注釈を付けました。色付きのテーブル。注釈付きの実際の医療データセットで、DEXTERが市販のAmazonTextractおよびMicrosoftAzureFormRecognizerシステムよりも優れていることを実験的に示します。
In this paper, we propose DEXTER, an end to end system to extract information from tables present in medical health documents, such as electronic health records (EHR) and explanation of benefits (EOB). DEXTER consists of four sub-system stages: i) table detection ii) table type classification iii) cell detection; and iv) cell content extraction. We propose a two-stage transfer learning-based approach using CDeC-Net architecture along with Non-Maximal suppression for table detection. We design a conventional computer vision-based approach for table type classification and cell detection using parameterized kernels based on image size for detecting rows and columns. Finally, we extract the text from the detected cells using pre-existing OCR engine Tessaract. To evaluate our system, we manually annotated a sample of the real-world medical dataset (referred to as Meddata) consisting of wide variations of documents (in terms of appearance) covering different table structures, such as bordered, partially bordered, borderless, or coloured tables. We experimentally show that DEXTER outperforms the commercially available Amazon Textract and Microsoft Azure Form Recognizer systems on the annotated real-world medical dataset
updated: Thu Jul 14 2022 11:27:02 GMT+0000 (UTC)
published: Thu Jul 14 2022 11:27:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト