arXiv reaDer
分離記号と後処理を使用した連続手話における単語の分離
Word separation in continuous sign language using isolated signs and post-processing
。連続手話認識 (CSLR) は、手話内の単語間の明確な境界を検出することが難しいため、コンピュータ ビジョンにおける長期にわたる困難なタスクです。この課題に対処するために、私たちは 2 段階のモデルを提案します。最初の段階では、CNN、SVD、LSTM の組み合わせを含む予測モデルが、分離された符号を使用してトレーニングされます。第 2 段階では、モデルの最初の部分から取得した Softmax 出力に後処理アルゴリズムを適用して、連続符号内の孤立符号を分離します。提案されたモデルは、同様のフレーム番号を持つ孤立標識クラスでトレーニングされますが、各孤立標識クラスごとに異なるフレーム長を持つ連続標識ビデオで評価されます。手話シーケンスと対応する孤立手話の両方を含む大規模なデータセットが不足しているため、孤立手話認識 (ISLR) の 2 つの公開データセットである RKS-PERSIANSIGN と ASLLVD が評価に使用されます。連続標識ビデオの結果は、孤立標識境界検出に対処するための提案されたモデルの効率性を確認します。
. Continuous Sign Language Recognition (CSLR) is a long challenging task in Computer Vision due to the difficulties in detecting the explicit boundaries between the words in a sign sentence. To deal with this challenge, we propose a two-stage model. In the first stage, the predictor model, which includes a combination of CNN, SVD, and LSTM, is trained with the isolated signs. In the second stage, we apply a post-processing algorithm to the Softmax outputs obtained from the first part of the model in order to separate the isolated signs in the continuous signs. While the proposed model is trained on the isolated sign classes with similar frame numbers, it is evaluated on the continuous sign videos with a different frame length per each isolated sign class. Due to the lack of a large dataset, including both the sign sequences and the corresponding isolated signs, two public datasets in Isolated Sign Language Recognition (ISLR), RKS-PERSIANSIGN and ASLLVD, are used for evaluation. Results of the continuous sign videos confirm the efficiency of the proposed model to deal with isolated sign boundaries detection.
updated: Thu Jun 01 2023 07:43:13 GMT+0000 (UTC)
published: Sat Apr 02 2022 18:34:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト