ドキュメントからテーブルを抽出することは、ドキュメント変換パイプラインにおいて重要なタスクです。最近、トランスフォーマーベースのモデルは、Image-to-Markup-Sequence (Im2Seq) アプローチを使用して、テーブル構造を非常に正確に認識できることを実証しました。このようなモデルは、テーブルの画像のみを取得して、テーブルの構造を表す一連のトークン (HTML、LaTeX など) を予測します。テーブル構造のトークン表現は、Im2Seq モデルの精度と実行時のパフォーマンスに大きな影響を与えるため、このホワイト ペーパーでは、テーブル構造の表現を最適化する方法を調査します。最小化された語彙と特定のルールを備えた、最適化された新しいテーブル構造言語 (OTSL) を提案します。 OTSL の利点は、トークンの数を 5 に減らし (HTML は 28 以上が必要)、シーケンスの長さを平均で HTML の半分に短縮することです。その結果、モデルの精度が大幅に向上し、HTML ベースのモデルと比較して推論時間が半分になり、予測されたテーブル構造は常に構文的に正しいものになります。これにより、ほとんどの後処理の必要性がなくなります。
Extracting tables from documents is a crucial task in any document conversion pipeline. Recently, transformer-based models have demonstrated that table-structure can be recognized with impressive accuracy using Image-to-Markup-Sequence (Im2Seq) approaches. Taking only the image of a table, such models predict a sequence of tokens (e.g. in HTML, LaTeX) which represent the structure of the table. Since the token representation of the table structure has a significant impact on the accuracy and run-time performance of any Im2Seq model, we investigate in this paper how table-structure representation can be optimised. We propose a new, optimised table-structure language (OTSL) with a minimized vocabulary and specific rules. The benefits of OTSL are that it reduces the number of tokens to 5 (HTML needs 28+) and shortens the sequence length to half of HTML on average. Consequently, model accuracy improves significantly, inference time is halved compared to HTML-based models, and the predicted table structures are always syntactically correct. This in turn eliminates most post-processing needs.