arXiv reaDer
タグ付け、コピー、または予測:シーケンスを使用した視覚情報抽出のための統合された弱教師あり学習フレームワーク
Tag, Copy or Predict: A Unified Weakly-Supervised Learning Framework for Visual Information Extraction using Sequences
視覚情報抽出(VIE)は、近年ますます注目を集めています。既存の方法は通常、最初に光学式文字認識(OCR)の結果をプレーンテキストに編成し、次にトークンレベルのエンティティ注釈を監視として利用してシーケンスタグ付けモデルをトレーニングします。ただし、注釈のコストが高く、ラベルの混乱にさらされる可能性があり、OCRエラーも最終的なパフォーマンスに大きく影響します。この論文では、TCPN(タグ、コピー、または予測ネットワーク)と呼ばれる統合された弱教師あり学習フレームワークを提案します。これは1)2DOCR結果のセマンティック情報とレイアウト情報を同時にモデル化する効率的なエンコーダーです。 2)重要な情報シーケンスのみを監視として利用する弱教師ありトレーニング戦略。 3)2つの推論モードを含む柔軟で切り替え可能なデコーダー。1つ(コピーまたは予測モード)は、入力からトークンをコピーするか、各タイムステップで1つを予測することにより、異なるカテゴリの主要な情報シーケンスを出力し、もう1つ(タグモード)は、単一のフォワードパスで入力シーケンスに直接タグを付けることです。私たちの方法は、いくつかの公開ベンチマークで新しい最先端のパフォーマンスを示しており、その有効性を完全に証明しています。
Visual information extraction (VIE) has attracted increasing attention in recent years. The existing methods usually first organized optical character recognition (OCR) results into plain texts and then utilized token-level entity annotations as supervision to train a sequence tagging model. However, it expends great annotation costs and may be exposed to label confusion, and the OCR errors will also significantly affect the final performance. In this paper, we propose a unified weakly-supervised learning framework called TCPN (Tag, Copy or Predict Network), which introduces 1) an efficient encoder to simultaneously model the semantic and layout information in 2D OCR results; 2) a weakly-supervised training strategy that utilizes only key information sequences as supervision; and 3) a flexible and switchable decoder which contains two inference modes: one (Copy or Predict Mode) is to output key information sequences of different categories by copying a token from the input or predicting one in each time step, and the other (Tag Mode) is to directly tag the input sequence in a single forward pass. Our method shows new state-of-the-art performance on several public benchmarks, which fully proves its effectiveness.
updated: Sun Jun 20 2021 11:56:46 GMT+0000 (UTC)
published: Sun Jun 20 2021 11:56:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト