arXiv reaDer
グロスなしのキーポイントベースの手話翻訳
Keypoint based Sign Language Translation without Glosses
手話翻訳(SLT)は、手話認識(SLR)の研究と比較して、あまり研究されていないタスクです。しかし、SLRは、話されている言語とは異なり、障害のない人が簡単に解釈できないという問題を抱えている、手話の独特の文法を認識する研究です。そこで、手話ビデオで直接話された言語を翻訳する問題を解決します。この目的のために、署名者のスケルトンポイントに基づいて翻訳を実行し、手話翻訳でこれらのポイントを確実に正規化するための新しいキーポイント正規化方法を提案します。体の部位に合わせてカスタマイズした正規化手法により、性能向上に貢献しました。さらに、フレームの増強とサンプリングを同時に可能にする確率的フレーム選択方法を提案します。最後に、注意ベースの翻訳モデルを介して話し言葉に翻訳されます。私たちの方法は、光沢のないデータセットに適用できる方法で、さまざまなデータセットに適用できます。さらに、定量的な実験的評価により、私たちの方法の卓越性が証明されました。
Sign Language Translation (SLT) is a task that has not been studied relatively much compared to the study of Sign Language Recognition (SLR). However, the SLR is a study that recognizes the unique grammar of sign language, which is different from the spoken language and has a problem that non-disabled people cannot easily interpret. So, we're going to solve the problem of translating directly spoken language in sign language video. To this end, we propose a new keypoint normalization method for performing translation based on the skeleton point of the signer and robustly normalizing these points in sign language translation. It contributed to performance improvement by a customized normalization method depending on the body parts. In addition, we propose a stochastic frame selection method that enables frame augmentation and sampling at the same time. Finally, it is translated into the spoken language through an Attention-based translation model. Our method can be applied to various datasets in a way that can be applied to datasets without glosses. In addition, quantitative experimental evaluation proved the excellence of our method.
updated: Fri Apr 22 2022 05:37:56 GMT+0000 (UTC)
published: Fri Apr 22 2022 05:37:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト