arXiv reaDer
数式のオンライン ジェスチャ認識のための Transformer アーキテクチャ
A Transformer Architecture for Online Gesture Recognition of Mathematical Expressions
Transformer アーキテクチャは、グリフ ストロークに対応するオンラインの手書きジェスチャから式ツリーを構築するためのエンド ツー エンド モデルとして強力なフレームワークを提供することが示されています。特に、Attention メカニズムを使用して、表現の基礎となる構文をエンコード、学習、強制することに成功し、正確な数学的表現ツリーに正しくデコードされる潜在的な表現を作成し、省略された入力や目に見えないグリフに堅牢性を提供します。初めて、エンコーダーに時空間データ トークンが供給され、無限に大きな語彙を形成する可能性があり、オンライン ジェスチャ認識を超えた用途が見出されます。一般的な手書き認識タスクでモデルをトレーニングするために、オンライン手書きジェスチャの新しい教師付きデータセットが提供され、出力式ツリーの構文の正確さを評価するための新しいメトリックが提案されます。エッジ推論に適した小さな Transformer モデルは、平均正規化レーベンシュタイン精度 94% まで正常にトレーニングされ、94% の予測に対して有効な後置 RPN ツリー表現が得られました。
The Transformer architecture is shown to provide a powerful framework as an end-to-end model for building expression trees from online handwritten gestures corresponding to glyph strokes. In particular, the attention mechanism was successfully used to encode, learn and enforce the underlying syntax of expressions creating latent representations that are correctly decoded to the exact mathematical expression tree, providing robustness to ablated inputs and unseen glyphs. For the first time, the encoder is fed with spatio-temporal data tokens potentially forming an infinitely large vocabulary, which finds applications beyond that of online gesture recognition. A new supervised dataset of online handwriting gestures is provided for training models on generic handwriting recognition tasks and a new metric is proposed for the evaluation of the syntactic correctness of the output expression trees. A small Transformer model suitable for edge inference was successfully trained to an average normalised Levenshtein accuracy of 94%, resulting in valid postfix RPN tree representation for 94% of predictions.
updated: Fri Nov 04 2022 17:55:55 GMT+0000 (UTC)
published: Fri Nov 04 2022 17:55:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト