arXiv reaDer
アメリカ手話での指文字検出
Fingerspelling Detection in American Sign Language
単語が文字ごとに署名される指文字は、アメリカ手話の重要な要素です。自動指文字認識に関するこれまでのほとんどの作業では、ビデオに署名する際の指文字領域の境界が事前にわかっていることを前提としています。この論文では、生のトリミングされていない手話ビデオでの指文字検出のタスクについて考察します。これは、実際の指文字認識システムを構築するための重要なステップです。ベンチマークと一連の評価指標を提案します。その一部は、下流の指文字認識タスクに対する検出の影響を反映しています。さらに、ポーズ推定と指文字認識(文字起こし)を検出とともに組み込んだマルチタスクトレーニングを介して指文字を検出することを学習する新しいモデルを提案し、このモデルをいくつかの代替案と比較します。このモデルは、すべてのメトリックにわたってすべての代替アプローチよりも優れており、ベンチマークで最先端の技術を確立しています。
Fingerspelling, in which words are signed letter by letter, is an important component of American Sign Language. Most previous work on automatic fingerspelling recognition has assumed that the boundaries of fingerspelling regions in signing videos are known beforehand. In this paper, we consider the task of fingerspelling detection in raw, untrimmed sign language videos. This is an important step towards building real-world fingerspelling recognition systems. We propose a benchmark and a suite of evaluation metrics, some of which reflect the effect of detection on the downstream fingerspelling recognition task. In addition, we propose a new model that learns to detect fingerspelling via multi-task training, incorporating pose estimation and fingerspelling recognition (transcription) along with detection, and compare this model to several alternatives. The model outperforms all alternative approaches across all metrics, establishing a state of the art on the benchmark.
updated: Sat Apr 03 2021 02:11:09 GMT+0000 (UTC)
published: Sat Apr 03 2021 02:11:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト