MS-ASL: A Large-Scale Data Set and Benchmark for Understanding American Sign Language
 手話認識は、複数のストリームで非同期に統合されるマルチモーダル咬合器(手形、方向、動き、上半身、および顔)を含む挑戦的で過小評価される問題です。このようなシナリオで強力な統計モデルを学習するには、特に最近の分野の進歩を適用するために多くのデータが必要です。ただし、ラベル付きデータは、これらの記述されていない言語を書き写すのに莫大な費用がかかるため、手話の貴重なリソースです。 25,000以上の注釈付きビデオで構成される最初の実際の大規模な手話データセットを提案します。これは、手話および関連するアクション認識からの最新の方法で徹底的に評価します。現在の最先端とは異なり、このデータセットでは、200人以上の署名者がいる現実的な設定で、目に見えない個人への一般化を調査できます(署名者に依存しないテスト)。これまでの研究では主に限られた語彙のタスクを扱っていましたが、ここでは、挑戦的で制約のない実際の録音条件で、1000クラスの大規模なクラスカウントを扱います。さらに、ビデオ分類から知られるI3Dを、手話認識のための強力で適切なアーキテクチャとして提案し、現在の最先端技術よりも大幅に優れています。データセットはコミュニティで公開されています。
Sign language recognition is a challenging and often underestimated problem comprising multi-modal articulators (handshape, orientation, movement, upper body and face) that integrate asynchronously on multiple streams. Learning powerful statistical models in such a scenario requires much data, particularly to apply recent advances of the field. However, labeled data is a scarce resource for sign language due to the enormous cost of transcribing these unwritten languages. We propose the first real-life large-scale sign language data set comprising over 25,000 annotated videos, which we thoroughly evaluate with state-of-the-art methods from sign and related action recognition. Unlike the current state-of-the-art, the data set allows to investigate the generalization to unseen individuals (signer-independent test) in a realistic setting with over 200 signers. Previous work mostly deals with limited vocabulary tasks, while here, we cover a large class count of 1000 signs in challenging and unconstrained real-life recording conditions. We further propose I3D, known from video classifications, as a powerful and suitable architecture for sign language recognition, outperforming the current state-of-the-art by a large margin. The data set is publicly available to the community.
updated: Wed Nov 20 2019 22:42:52 GMT+0000 (UTC)
published: Mon Dec 03 2018 19:41:16 GMT+0000 (UTC)
