手話認識(SLR)は難しい問題であり、手のジェスチャーなどの複雑な手動機能と、顔の表情、口の形などのきめ細かい非手動機能(NMF)が関係します。手動機能が主流ですが、 -手動機能も手話の表現に重要な役割を果たします。具体的には、多くの記号の単語は、同じ手のジェスチャーを共有していても、手動ではない機能のために異なる意味を伝えます。このあいまいさは、記号の単語の認識に大きな課題をもたらします。上記の問題に取り組むために、一眼レフの異なる重要な側面に向けて相互に促進される2つのストリームを含む、グローバルローカルエンハンスメントネットワーク(GLE-Net)と呼ばれるシンプルで効果的なアーキテクチャを提案します。 2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つのストリームは識別可能なきめ細かいキューをキャプチャします。さらに、この種の機能に明確に焦点を当てたデータセットがないため、日常生活での総語彙サイズが1,067記号語である、最初の非手動機能対応の分離された中国手話データセット〜(NMFs-CSL)を紹介します。 。 NMFに関する広範な実験-CSLおよびSLR500データセットは、私たちの方法の有効性を示しています。
Sign language recognition (SLR) is a challenging problem, involving complex manual features, i.e., hand gestures, and fine-grained non-manual features (NMFs), i.e., facial expression, mouth shapes, etc. Although manual features are dominant, non-manual features also play an important role in the expression of a sign word. Specifically, many sign words convey different meanings due to non-manual features, even though they share the same hand gestures. This ambiguity introduces great challenges in the recognition of sign words. To tackle the above issue, we propose a simple yet effective architecture called Global-local Enhancement Network (GLE-Net), including two mutually promoted streams towards different crucial aspects of SLR. Of the two streams, one captures the global contextual relationship, while the other stream captures the discriminative fine-grained cues. Moreover, due to the lack of datasets explicitly focusing on this kind of features, we introduce the first non-manual-features-aware isolated Chinese sign language dataset~(NMFs-CSL) with a total vocabulary size of 1,067 sign words in daily life. Extensive experiments on NMFs-CSL and SLR500 datasets demonstrate the effectiveness of our method.