連続手話認識 (CSLR) は、手話データの時系列に関する正確な注釈が不足しているため、困難な研究課題です。最近よく使われているのは、CSLR の「CNN + RNN」をベースにしたハイブリッド モデルです。しかし、これらの作品で時間的特徴を抽出する際、固定された時間的受容野を使用する方法のほとんどは、手話単語ごとに時間的特徴をうまく抽出できません。より正確な時間的特徴を取得するために、この論文ではマルチスケール時間ネットワーク (MSTNet) を提案します。ネットワークは主に 3 つの部分で構成されます。 Resnet と 2 つの全結合 (FC) 層は、フレーム単位の特徴抽出部分を構成します。時間的特徴抽出部は、最初に提案されたマルチスケール時間ブロック (MST ブロック) を使用して異なるスケールの時間的受容野特徴を抽出し、時間モデリング能力を向上させ、次に異なるスケールの時間的特徴をさらに符号化することにより、時間的特徴学習を実行します。より正確な時間的特徴を取得するために、Transformers モジュールによってスケーリングされます。最後に、提案されたマルチレベルのコネクショニスト時間分類 (CTC) 損失部分をトレーニングに使用して、認識結果を取得します。マルチレベル CTC 損失により、CNN の浅いネットワーク パラメーターの学習と更新が向上し、この方法にはパラメーターの増加がなく、他のモデルに柔軟に組み込むことができます。公開されている 2 つのデータセットでの実験結果は、事前の知識がなくても手話の特徴をエンドツーエンドで効果的に抽出し、CSLR の精度を向上させ、競争力のある結果を達成できることを示しています。
Continuous Sign Language Recognition (CSLR) is a challenging research task due to the lack of accurate annotation on the temporal sequence of sign language data. The recent popular usage is a hybrid model based on "CNN + RNN" for CSLR. However, when extracting temporal features in these works, most of the methods using a fixed temporal receptive field and cannot extract the temporal features well for each sign language word. In order to obtain more accurate temporal features, this paper proposes a multi-scale temporal network (MSTNet). The network mainly consists of three parts. The Resnet and two fully connected (FC) layers constitute the frame-wise feature extraction part. The time-wise feature extraction part performs temporal feature learning by first extracting temporal receptive field features of different scales using the proposed multi-scale temporal block (MST-block) to improve the temporal modeling capability, and then further encoding the temporal features of different scales by the transformers module to obtain more accurate temporal features. Finally, the proposed multi-level Connectionist Temporal Classification (CTC) loss part is used for training to obtain recognition results. The multi-level CTC loss enables better learning and updating of the shallow network parameters in CNN, and the method has no parameter increase and can be flexibly embedded in other models. Experimental results on two publicly available datasets demonstrate that our method can effectively extract sign language features in an end-to-end manner without any prior knowledge, improving the accuracy of CSLR and achieving competitive results.