arXiv reaDer
手書きの数式認識のためのトランスフォーマーベースの数学言語モデル
A Transformer-based Math Language Model for Handwritten Math Expression Recognition
手書きの数式(HME)には、人間の場合でも、解釈にあいまいさが含まれています。ドットとコンマ、0、O、oなど、いくつかの数学記号は文体が非常に似ています。これは、コンテキスト情報を使用せずにHME認識システムで処理する場合の課題です。この問題に対処するために、このペーパーでは、Transformerベースの数学言語モデル(TMLM)を紹介します。自己注意メカニズムに基づいて、一連のトークン内の入力トークンの高レベルの表現は、それが前のトークンとどのように関連しているかによって計算されます。したがって、TMLMは、数式(ME)のシンボルと関係の間の長い依存関係と相関関係をキャプチャできます。 CROHME 2016で提供された約70,000のLaTeXシーケンスのコーパスを使用して、提案された言語モデルをトレーニングしました。TMLMは、4.42のパープレキシティを達成しました。これは、以前の数学言語モデル、つまりNグラムおよびリカレントニューラルネットワークベースの言語モデルを上回りました。さらに、TMLMを組み合わせて、重み付けパラメーターを使用して確率的文脈自由文法ベースのHME認識システムを作成し、上位10位の候補者を再ランク付けします。 CROHME2016およびCROHME2019のテストセットでの発現率は、それぞれ2.97および0.83パーセントポイント改善されました。
Handwritten mathematical expressions (HMEs) contain ambiguities in their interpretations, even for humans sometimes. Several math symbols are very similar in the writing style, such as dot and comma or 0, O, and o, which is a challenge for HME recognition systems to handle without using contextual information. To address this problem, this paper presents a Transformer-based Math Language Model (TMLM). Based on the self-attention mechanism, the high-level representation of an input token in a sequence of tokens is computed by how it is related to the previous tokens. Thus, TMLM can capture long dependencies and correlations among symbols and relations in a mathematical expression (ME). We trained the proposed language model using a corpus of approximately 70,000 LaTeX sequences provided in CROHME 2016. TMLM achieved the perplexity of 4.42, which outperformed the previous math language models, i.e., the N-gram and recurrent neural network-based language models. In addition, we combine TMLM into a stochastic context-free grammar-based HME recognition system using a weighting parameter to re-rank the top-10 best candidates. The expression rates on the testing sets of CROHME 2016 and CROHME 2019 were improved by 2.97 and 0.83 percentage points, respectively.
updated: Wed Aug 11 2021 03:03:48 GMT+0000 (UTC)
published: Wed Aug 11 2021 03:03:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト