自我の手のジェスチャーは、ARおよびVR環境のインターフェイスとして使用できます。画像のコンテキストは、シーンの理解、オブジェクトの認識、画像のキャプションの生成、アクティビティの認識などのタスクにとって重要ですが、自我の手ジェスチャーの認識では最小限の役割を果たします。 ARおよびVR環境で使用される自我手ジェスチャーは、背景に関係なく同じ情報を伝えます。このアイデアを念頭に置いて、エゴ手セグメンテーションとエゴジェスチャ認識に同時に使用される、エゴ手でRBG画像から埋め込みを生成するエゴ手ジェスチャ認識に関する作業を紹介します。この点で、公的に入手可能な最大のエゴハンドジェスチャデータセットの最新技術(92.2%)と比較して、より高い認識精度(96.9%)を達成しました。さまざまな長さの画像シーケンスからエゴ手の埋め込みを生成および認識することにより、ビデオ(単一のジェスチャを含むビデオ)からエゴ手のジェスチャを認識するジェスチャ認識ディープニューラルネットワークを提供します。自我の手のジェスチャーに適用される同時セグメンテーションと認識の概念を紹介し、EgoGestureデータセットの最新技術と比較したネットワークアーキテクチャ、トレーニング手順、および結果を提示します。
Ego hand gestures can be used as an interface in AR and VR environments. While the context of an image is important for tasks like scene understanding, object recognition, image caption generation and activity recognition, it plays a minimal role in ego hand gesture recognition. An ego hand gesture used for AR and VR environments conveys the same information regardless of the background. With this idea in mind, we present our work on ego hand gesture recognition that produces embeddings from RBG images with ego hands, which are simultaneously used for ego hand segmentation and ego gesture recognition. To this extent, we achieved better recognition accuracy (96.9%) compared to the state of the art (92.2%) on the biggest ego hand gesture dataset available publicly. We present a gesture recognition deep neural network which recognises ego hand gestures from videos (videos containing a single gesture) by generating and recognising embeddings of ego hands from image sequences of varying length. We introduce the concept of simultaneous segmentation and recognition applied to ego hand gestures, present the network architecture, the training procedure and the results compared to the state of the art on the EgoGesture dataset