動的な手のジェスチャ認識タスクでは、さまざまなユニモーダルおよびマルチモーダルの方法に関する研究が行われています。以前、研究者は深度と2DスケルトンベースのマルチモーダルフュージョンCRNN(畳み込みリカレントニューラルネットワーク)を調査しましたが、期待される認識結果を得るには限界がありました。この論文では、手のジェスチャ認識へのこのアプローチを再検討し、いくつかの改善を提案します。生の深度画像は、手の関心領域(ROI)でコントラストが低いことがわかります。指の向き、指と手のひらの重なり、複数の指の重なりなど、重要な細部は強調されません。したがって、手のいくつかの重要な部分の間に高いコントラストを作成するために、深さの値をいくつかの個別の領域に量子化することを提案します。さらに、既存のマルチモーダルフュージョンCRNNアーキテクチャの高分散問題に取り組むためのいくつかの方法を提案します。 DHG-14 / 28データセットとSHREC'17トラックデータセットの2つのベンチマークでメソッドを評価します。私たちのアプローチは、以前の同様のマルチモーダル手法に比べて精度とパラメータ効率が大幅に向上し、最先端の方法に匹敵する結果を示しています。
The dynamic hand gesture recognition task has seen studies on various unimodal and multimodal methods. Previously, researchers have explored depth and 2D-skeleton-based multimodal fusion CRNNs (Convolutional Recurrent Neural Networks) but have had limitations in getting expected recognition results. In this paper, we revisit this approach to hand gesture recognition and suggest several improvements. We observe that raw depth images possess low contrast in the hand regions of interest (ROI). They do not highlight important fine details, such as finger orientation, overlap between the finger and palm, or overlap between multiple fingers. We thus propose quantizing the depth values into several discrete regions, to create a higher contrast between several key parts of the hand. In addition, we suggest several ways to tackle the high variance problem in existing multimodal fusion CRNN architectures. We evaluate our method on two benchmarks: the DHG-14/28 dataset and the SHREC'17 track dataset. Our approach shows a significant improvement in accuracy and parameter efficiency over previous similar multimodal methods, with a comparable result to the state-of-the-art.