Visual FUDGE:動的グラフ編集によるフォームの理解
Visual FUDGE: Form Understanding via Dynamic Graph Editing
フォームの理解の問題に対処します。フォーム画像でテキストエンティティとそれらの間の関係/リンクを見つけることです。提案されたFUDGEモデルは、テキスト要素(頂点)のグラフ上でこの問題を定式化し、グラフ畳み込みネットワークを使用してグラフの変化を予測します。最初の頂点は検出されたテキスト行であり、複数行にまたがることができる最後のテキストエンティティに必ずしも対応しているわけではありません。また、初期エッジには多くの誤検知関係が含まれています。 FUDGEは、テキストセグメント(グラフの頂点)とエッジのプルーニングを繰り返し実行してグラフ構造を編集し、最終的なテキストエンティティと関係を取得します。この分野での最近の作業は、大規模な事前トレーニング済み言語モデル(LM)の活用に焦点を当てていますが、FUDGEは、提供された(小さな)トレーニングセットから視覚的特徴のみを学習することにより、FUNSDデータセットでほぼ同じレベルのエンティティリンキングパフォーマンスを実現します。 FUDGEは、テキスト認識が困難なフォーム(劣化したフォームや履歴フォームなど)や、そのようなLMの事前トレーニングが困難なリソースの少ない言語のフォームに適用できます。 FUDGEは、過去のNAFデータセットの最先端です。
We address the problem of form understanding: finding text entities and the relationships/links between them in form images. The proposed FUDGE model formulates this problem on a graph of text elements (the vertices) and uses a Graph Convolutional Network to predict changes to the graph. The initial vertices are detected text lines and do not necessarily correspond to the final text entities, which can span multiple lines. Also, initial edges contain many false-positive relationships. FUDGE edits the graph structure by combining text segments (graph vertices) and pruning edges in an iterative fashion to obtain the final text entities and relationships. While recent work in this area has focused on leveraging large-scale pre-trained Language Models (LM), FUDGE achieves almost the same level of entity linking performance on the FUNSD dataset by learning only visual features from the (small) provided training set. FUDGE can be applied on forms where text recognition is difficult (e.g. degraded or historical forms) and on forms in resource-poor languages where pre-training such LMs is challenging. FUDGE is state-of-the-art on the historical NAF dataset.
updated: Fri Jul 16 2021 17:50:23 GMT+0000 (UTC)
published: Mon May 17 2021 23:18:39 GMT+0000 (UTC)
