手話認識(SLR)は、聴覚および音声障害のあるコミュニティとその他の社会との間のコミュニケーションのギャップを埋める上で重要な役割を果たします。単語レベルの手話認識(WSLR)は、手話を理解して解釈するための最初の重要なステップです。ただし、単語の意味は微妙な体の動き、手の構成、およびその他の動きの組み合わせに依存するため、ビデオからの兆候を認識することは困難な作業です。 WSLRの最近のポーズベースのアーキテクチャは、異なるフレームのポーズ間の空間的依存性と時間的依存性の両方を同時にモデル化するか、空間情報を十分に活用せずに時間的情報のみをモデル化します。空間情報と時間情報を別々にキャプチャし、レイトフュージョンを実行する新しいポーズベースのアプローチを使用して、WSLRの問題に取り組みます。提案されたアーキテクチャは、グラフ畳み込みネットワーク(GCN)を使用して、ビデオ内の空間的相互作用を明示的にキャプチャします。フレーム間の時間的依存関係は、Transformersからの双方向エンコーダー表現(BERT)を使用してキャプチャされます。標準の単語レベルの手話認識データセットであるWLASLの実験結果は、予測精度を最大5%向上させることにより、モデルがポーズベースの方法の最先端を大幅に上回っていることを示しています。
Sign language recognition (SLR) plays a crucial role in bridging the communication gap between the hearing and vocally impaired community and the rest of the society. Word-level sign language recognition (WSLR) is the first important step towards understanding and interpreting sign language. However, recognizing signs from videos is a challenging task as the meaning of a word depends on a combination of subtle body motions, hand configurations, and other movements. Recent pose-based architectures for WSLR either model both the spatial and temporal dependencies among the poses in different frames simultaneously or only model the temporal information without fully utilizing the spatial information. We tackle the problem of WSLR using a novel pose-based approach, which captures spatial and temporal information separately and performs late fusion. Our proposed architecture explicitly captures the spatial interactions in the video using a Graph Convolutional Network (GCN). The temporal dependencies between the frames are captured using Bidirectional Encoder Representations from Transformers (BERT). Experimental results on WLASL, a standard word-level sign language recognition dataset show that our model significantly outperforms the state-of-the-art on pose-based methods by achieving an improvement in the prediction accuracy by up to 5%.