arXiv reaDer
Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks
  ビデオストリームからの動的なハンドジェスチャのリアルタイム認識は、(i)ビデオ内でジェスチャの開始時と終了時の兆候がないため、(ii)実行されたジェスチャは1回のみ認識される必要があり、(iii)全体アーキテクチャは、メモリと電力のバジェットを考慮して設計する必要があります。この作業では、スライディングウィンドウアプローチを使用してオフラインで動作する畳み込みニューラルネットワーク(CNN)アーキテクチャがオンラインで効率的に動作できるようにする階層構造を提案することにより、これらの課題に対処します。提案されたアーキテクチャは、2つのモデルで構成されます。(1)ジェスチャを検出する軽量CNNアーキテクチャである検出器と、(2)検出されたジェスチャを分類するディープCNNである分類子。検出されたジェスチャの1回限りのアクティブ化を評価するために、誤判別、複数の検出、および検出の欠落を同時に測定できるため、評価指標としてレーベンシュタイン距離を使用することを提案します。 EgoGestureおよびNVIDIA Dynamic Hand Gesture Datasetsの公開されている2つのデータセットでアーキテクチャを評価します。これらのデータセットでは、実行されたハンドジェスチャの一時的な検出と分類が必要です。分類子として使用されるResNeXt-101モデルは、EgoGestureおよびNVIDIAベンチマークの深度モダリティで、それぞれ最新のオフライン分類精度94.04%および83.82%を達成します。リアルタイムの検出と分類では、オフライン操作に近いパフォーマンスを達成しながら、かなりの早期検出を取得します。この作業で使用されるコードと事前学習済みのモデルは、公開されています。
Real-time recognition of dynamic hand gestures from video streams is a challenging task since (i) there is no indication when a gesture starts and ends in the video, (ii) performed gestures should only be recognized once, and (iii) the entire architecture should be designed considering the memory and power budget. In this work, we address these challenges by proposing a hierarchical structure enabling offline-working convolutional neural network (CNN) architectures to operate online efficiently by using sliding window approach. The proposed architecture consists of two models: (1) A detector which is a lightweight CNN architecture to detect gestures and (2) a classifier which is a deep CNN to classify the detected gestures. In order to evaluate the single-time activations of the detected gestures, we propose to use Levenshtein distance as an evaluation metric since it can measure misclassifications, multiple detections, and missing detections at the same time. We evaluate our architecture on two publicly available datasets - EgoGesture and NVIDIA Dynamic Hand Gesture Datasets - which require temporal detection and classification of the performed hand gestures. ResNeXt-101 model, which is used as a classifier, achieves the state-of-the-art offline classification accuracy of 94.04% and 83.82% for depth modality on EgoGesture and NVIDIA benchmarks, respectively. In real-time detection and classification, we obtain considerable early detections while achieving performances close to offline operation. The codes and pretrained models used in this work are publicly available.
updated: Fri Oct 18 2019 08:14:35 GMT+0000 (UTC)
published: Tue Jan 29 2019 14:52:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト