HGRのパフォーマンスは、照明の変化、背景の乱雑さ、自発的なキャプチャなどのさまざまな側面の影響を受けるため、非常に困難なタスクです。HGRの従来のCNNネットワークは、複雑な兆候、照明などのさまざまな課題に対処するために2段階のパイプラインに従います。バリエーション、複雑で雑然とした背景。既存のアプローチでは、入力画像から複雑さを取り除くために、専門家の専門知識とステージ1での補助計算が必要です。したがって、この論文では、新しいエンドツーエンドのコンパクトなCNNフレームワークを提案します。これは、上記の課題を解決するためのハンドジェスチャ認識(Fit-Hand)用のきめ細かい機能の注意深いネットワークです。提案されたアーキテクチャのパイプラインは、FineFeatモジュールと拡張畳み込み(Conv)層の2つの主要ユニットで構成されています。 FineFeatモジュールは、マルチスケール受容野に注意メカニズムを採用することにより、きめの細かい特徴マップを抽出します。注意メカニズムは、マルチスケール応答の平均的な動作を拡大することによって効果的な機能をキャプチャするために導入されています。さらに、拡張畳み込みは、より大きな受容野を介して手のジェスチャーのグローバルな機能を提供します。さらに、統合レイヤーは、FineFeatモジュールの機能と拡張レイヤーを組み合わせて使用され、手の姿勢の補完的なコンテキスト情報をキャプチャすることでネットワークの識別性を高めます。 Fit-Handの有効性は、7つのベンチマークデータセット(MUGD-I、MUGD-II、MUGD-III、MUGD-IV、MUGD-V、指文字)で、サブジェクト依存(SD)およびサブジェクト非依存(SI)の検証セットアップを使用して評価されます。それぞれ、OUHANDS。さらに、提案されたFit-Handフレームワークの深い洞察を調査するために、10回のアブレーション研究を実施しました。
The HGR is a quite challenging task as its performance is influenced by various aspects such as illumination variations, cluttered backgrounds, spontaneous capture, etc. The conventional CNN networks for HGR are following two stage pipeline to deal with the various challenges: complex signs, illumination variations, complex and cluttered backgrounds. The existing approaches needs expert expertise as well as auxiliary computation at stage 1 to remove the complexities from the input images. Therefore, in this paper, we proposes an novel end-to-end compact CNN framework: fine grained feature attentive network for hand gesture recognition (Fit-Hand) to solve the challenges as discussed above. The pipeline of the proposed architecture consists of two main units: FineFeat module and dilated convolutional (Conv) layer. The FineFeat module extracts fine grained feature maps by employing attention mechanism over multiscale receptive fields. The attention mechanism is introduced to capture effective features by enlarging the average behaviour of multi-scale responses. Moreover, dilated convolution provides global features of hand gestures through a larger receptive field. In addition, integrated layer is also utilized to combine the features of FineFeat module and dilated layer which enhances the discriminability of the network by capturing complementary context information of hand postures. The effectiveness of Fit- Hand is evaluated by using subject dependent (SD) and subject independent (SI) validation setup over seven benchmark datasets: MUGD-I, MUGD-II, MUGD-III, MUGD-IV, MUGD-V, Finger Spelling and OUHANDS, respectively. Furthermore, to investigate the deep insights of the proposed Fit-Hand framework, we performed ten ablation study.