手話認識は、迅速かつ高度に連接された動きを特徴とする困難なジェスチャシーケンス認識の問題です。このホワイトペーパーでは、主にYouTubeおよび聴覚障害者のソーシャルメディアから野生で収集されたアメリカ手話(ASL)ビデオのフィンガースペリングシーケンスの認識に焦点を当てています。手話認識に関するこれまでのほとんどの作業は、データがスタジオ環境で記録され、署名者の数が制限されている制御された設定に焦点を当てていました。私たちの仕事は、実際のデータの課題に対処し、このドメインで一般的に使用される検出またはセグメンテーションモジュールの必要性を減らすことを目的としています。明示的な手の検出またはセグメンテーションなしで、反復注意メカニズムに基づくエンドツーエンドモデルを提案します。私たちのアプローチは、ますます高解像度の関心領域に動的に焦点を当てています。これは、前の作業よりも大幅に優れています。また、野生でのフィンガースペリングのクラウドソース注釈の新しく収集されたデータセットを紹介し、この追加のデータセットを使用してパフォーマンスをさらに改善できることを示します。
Sign language recognition is a challenging gesture sequence recognition problem, characterized by quick and highly coarticulated motion. In this paper we focus on recognition of fingerspelling sequences in American Sign Language (ASL) videos collected in the wild, mainly from YouTube and Deaf social media. Most previous work on sign language recognition has focused on controlled settings where the data is recorded in a studio environment and the number of signers is limited. Our work aims to address the challenges of real-life data, reducing the need for detection or segmentation modules commonly used in this domain. We propose an end-to-end model based on an iterative attention mechanism, without explicit hand detection or segmentation. Our approach dynamically focuses on increasingly high-resolution regions of interest. It outperforms prior work by a large margin. We also introduce a newly collected data set of crowdsourced annotations of fingerspelling in the wild, and show that performance can be further improved with this additional data set.