arXiv reaDer
ラベルのないデータを含むフォームからのフィールド抽出
Field Extraction from Forms with Unlabeled Data
ラベルのないデータを持つフォームからフィールド抽出を行うための新しいフレームワークを提案します。トレーニングプロセスをブートストラップするために、ラベルのないフォームからノイズの多い疑似ラベルをマイニングするためのルールベースの方法を開発します。疑似ラベルからの監視信号を使用して、フォーム内のテキスト間の相互作用をモデル化することにより、トランスフォーマーベースのモデルから識別トークン表現を抽出します。モデルがラベルノイズに過剰適合するのを防ぐために、プログレッシブ疑似ラベルアンサンブルに基づく改良モジュールを導入します。実験結果は、私たちのフレームワークの有効性を示しています。
We propose a novel framework to conduct field extraction from forms with unlabeled data. To bootstrap the training process, we develop a rule-based method for mining noisy pseudo-labels from unlabeled forms. Using the supervisory signal from the pseudo-labels, we extract a discriminative token representation from a transformer-based model by modeling the interaction between text in the form. To prevent the model from overfitting to label noise, we introduce a refinement module based on a progressive pseudo-label ensemble. Experimental results demonstrate the effectiveness of our framework.
updated: Mon Apr 11 2022 21:07:06 GMT+0000 (UTC)
published: Fri Oct 08 2021 17:50:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト