arXiv reaDer
手話認識のための深層学習ベースの方法に関する包括的な研究
A Comprehensive Study on Deep Learning-based Methods for Sign Language Recognition
この論文では、手話認識のためのコンピュータビジョンベースの方法の比較実験的評価が行われる。この分野で最新のディープニューラルネットワーク手法を実装することにより、複数の公開されているデータセットの徹底的な評価が実行されます。本研究の目的は、セグメント化されていないビデオストリームをグロスにマッピングすることに焦点を当て、手話認識に関する洞察を提供することです。このタスクでは、音声認識とシーンテキスト認識の分野で知られている2つの新しいシーケンストレーニング基準が導入されています。さらに、多数の事前トレーニングスキームについて徹底的に説明します。最後に、ギリシャ手話の新しいRGB + Dデータセットが作成されます。私たちの知る限り、これは、ビデオキャプチャ用に文と光沢レベルの注釈が提供される最初の手話データセットです。
In this paper, a comparative experimental assessment of computer vision-based methods for sign language recognition is conducted. By implementing the most recent deep neural network methods in this field, a thorough evaluation on multiple publicly available datasets is performed. The aim of the present study is to provide insights on sign language recognition, focusing on mapping non-segmented video streams to glosses. For this task, two new sequence training criteria, known from the fields of speech and scene text recognition, are introduced. Furthermore, a plethora of pretraining schemes is thoroughly discussed. Finally, a new RGB+D dataset for the Greek sign language is created. To the best of our knowledge, this is the first sign language dataset where sentence and gloss level annotations are provided for a video capture.
updated: Fri Mar 19 2021 19:32:15 GMT+0000 (UTC)
published: Fri Jul 24 2020 14:07:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト