arXiv reaDer
オンラインビデオから学んだオープンドメインの手話翻訳
Open-Domain Sign Language Translation Learned from Online Video
手話翻訳に関する既存の作業、つまり、手話ビデオから書き言葉の文章への翻訳は、主に (1) 制御された環境で収集されたデータ、または (2) 特定のドメイン内のデータに焦点を当てており、適用範囲が制限されています。現実世界の設定。このホワイト ペーパーでは、オンライン ビデオ サイト (YouTube など) から収集された大規模なアメリカ手話 (ASL) - 英語のデータセットである OpenASL を紹介します。 OpenASL には、複数のドメインで 200 人以上の署名者による 288 時間の ASL ビデオが含まれており、現在までに公開されている最大の ASL 翻訳データセットです。現実的な設定でグロスなしで手話翻訳の課題に取り組むために、事前トレーニングと口と手の形の機能の融合のための口実タスクとしての手話検索を含む一連の手法を提案します。提案された手法は、以前の作業に基づくベースライン モデルよりも、翻訳品質の一貫した大幅な改善をもたらします。私たちのデータとコードは、https://github.com/chevalierNoir/OpenASL で公開されています。
Existing work on sign language translation - that is, translation from sign language videos into sentences in a written language - has focused mainly on (1) data collected in a controlled environment or (2) data in a specific domain, which limits the applicability to real-world settings. In this paper, we introduce OpenASL, a large-scale American Sign Language (ASL) - English dataset collected from online video sites (e.g., YouTube). OpenASL contains 288 hours of ASL videos in multiple domains from over 200 signers and is the largest publicly available ASL translation dataset to date. To tackle the challenges of sign language translation in realistic settings and without glosses, we propose a set of techniques including sign search as a pretext task for pre-training and fusion of mouthing and handshape features. The proposed techniques produce consistent and large improvements in translation quality, over baseline models based on prior work. Our data and code are publicly available at https://github.com/chevalierNoir/OpenASL
updated: Sat Nov 19 2022 16:06:02 GMT+0000 (UTC)
published: Wed May 25 2022 15:43:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト