arXiv reaDer
SDW-ASL: 継続的なアメリカ手話の大規模データセットを生成する動的システム
SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous American Sign Language
近年、深層学習技術を使用した自然言語処理の驚異的な進歩にもかかわらず、手話の生成と理解はほとんど進歩していません。重要な障壁の 1 つは、ラベル付きデータの生成に耐え難いコストがかかるため、一般に公開されている大規模なデータセットが不足していることです。アメリカ手話 (ASL) の理解に関する公開データを提供する取り組みにより、1,000 以上のビデオ クリップで構成される 2 つのデータセットが作成されました。これらのデータセットは、手話に関する深層学習研究を有意義に開始するには十分な大きさですが、実際に展開できるソリューションに導くには小さすぎます。これまでのところ、ASL の作成に適したデータセットはまだありません。連続ASLのための大規模なASLデータセットを生成できるシステムを提案しました。一般的な ASL 処理に適しており、特に ASL の生成に役立ちます。連続 ASL データセットには、凝縮されたボディ ポーズ データ形式の英語でラベル付けされた人間の関節が含まれています。研究コミュニティにより良いサービスを提供するために、合計 104 時間で 30,000 の文、416,000 語、18,000 語の語彙を含む ASL データセットの最初のバージョンをリリースします。これは、ビデオの長さに関して、これまでに公開された最大の連続手話データセットです。また、データセットを進化および拡張して、より優れたデータ処理技術とより多くのコンテンツを利用可能な場合に組み込むことができるシステムについても説明します。この ASL データセットと持続可能なデータセット生成システムを一般に公開することで、ASL 自然言語処理における深層学習の研究が促進されることを願っています。
Despite tremendous progress in natural language processing using deep learning techniques in recent years, sign language production and comprehension has advanced very little. One critical barrier is the lack of largescale datasets available to the public due to the unbearable cost of labeled data generation. Efforts to provide public data for American Sign Language (ASL) comprehension have yielded two datasets, comprising more than thousand video clips. These datasets are large enough to enable a meaningful start to deep learning research on sign languages but are far too small to lead to any solution that can be practically deployed. So far, there is still no suitable dataset for ASL production. We proposed a system that can generate large scale ASL datasets for continuous ASL. It is suitable for general ASL processing and is particularly useful for ASL production. The continuous ASL dataset contains English labeled human articulations in condensed body pose data formats. To better serve the research community, we are releasing the first version of our ASL dataset, which contains 30k sentences, 416k words, a vocabulary of 18k words, in a total of 104 hours. This is the largest continuous sign language dataset published to date in terms of video duration. We also describe a system that can evolve and expand the dataset to incorporate better data processing techniques and more contents when available. It is our hope that the release of this ASL dataset and the sustainable dataset generation system to the public will propel better deep-learning research in ASL natural language processing.
updated: Thu Oct 13 2022 07:08:00 GMT+0000 (UTC)
published: Thu Oct 13 2022 07:08:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト