現代社会では、障害者を特定するのではなく、障害者を障害者にすることができる環境です。自動手話認識(SLR)の改善により、デジタルテクノロジーを介したより有効な環境が実現します。 SLRへの多くの最先端のアプローチは、静的な手のジェスチャーの分類に焦点を当てていますが、コミュニケーションは一時的な活動であり、存在する動的なジェスチャーの多くに反映されています。これを考えると、ジェスチャの配信中の時間情報は、SLR内ではあまり考慮されません。この作業の実験では、動的ジェスチャが配信中にどのように変化するかに関するSLジェスチャ認識の問題を検討します。この研究は、単一タイプの機能と混合機能が機械学習モデルの分類能力にどのように影響するかを調査することを目的としています。 Leap Motion Controllerセンサーを介して記録された18の一般的なジェスチャは、複雑な分類問題を提供します。 0.6秒の時間枠、統計記述子、および時空間属性から2セットの特徴が抽出されます。各セットの特徴は、ANOVA Fスコアとp値によって比較され、250の最高ランクの特徴の制限までステップごとに10の特徴によって成長したビンに配置されます。結果は、最良の統計モデルが240の特徴を選択し、85.96%の精度を記録し、最良の時空間モデルが230の特徴を選択し、80.98%を記録し、最良の混合特徴モデルが各セットから240の特徴を選択し、86.75の分類精度をもたらしたことを示しています。 %。 3つの結果セットすべてを比較すると(146の個別の機械学習モデル)、全体的な分布は、入力が2つの単一の機能セットのいずれかの任意の数と比較して任意の数の混合機能である場合に最小結果が増加することを示しています。
In modern society, people should not be identified based on their disability, rather, it is environments that can disable people with impairments. Improvements to automatic Sign Language Recognition (SLR) will lead to more enabling environments via digital technology. Many state-of-the-art approaches to SLR focus on the classification of static hand gestures, but communication is a temporal activity, which is reflected by many of the dynamic gestures present. Given this, temporal information during the delivery of a gesture is not often considered within SLR. The experiments in this work consider the problem of SL gesture recognition regarding how dynamic gestures change during their delivery, and this study aims to explore how single types of features as well as mixed features affect the classification ability of a machine learning model. 18 common gestures recorded via a Leap Motion Controller sensor provide a complex classification problem. Two sets of features are extracted from a 0.6 second time window, statistical descriptors and spatio-temporal attributes. Features from each set are compared by their ANOVA F-Scores and p-values, arranged into bins grown by 10 features per step to a limit of the 250 highest-ranked features. Results show that the best statistical model selected 240 features and scored 85.96% accuracy, the best spatio-temporal model selected 230 features and scored 80.98%, and the best mixed-feature model selected 240 features from each set leading to a classification accuracy of 86.75%. When all three sets of results are compared (146 individual machine learning models), the overall distribution shows that the minimum results are increased when inputs are any number of mixed features compared to any number of either of the two single sets of features.