arXiv reaDer
DeepGRU: Deep Gesture Recognition Utility
  DeepGRUを提案します。これは、ジェスチャおよびアクション認識のための深層学習の最近の開発によって通知される、エンドツーエンドの新しい深層ネットワークモデルであり、合理的でデバイスに依存しません。未加工のスケルトン、ポーズ、またはベクターデータのみを使用するDeepGRUは、すぐに理解、実装、およびトレーニングされますが、困難なデータセットで最新の結果を達成します。私たちの方法の中心にあるのは、スタックゲートリカレントユニット(GRU)、2つの完全に接続されたレイヤー、および新しいグローバルアテンションモデルのセットです。さまざまな数のサンプルを含み、幅広い相互作用(フルボディ、マルチアクター、ハンドジェスチャなど)にまたがる、公開されている7つのデータセットでメソッドを評価します。 1つを除くすべてのケースで、最先端のポーズベースの方法よりも優れています。たとえば、NTU RGB + Dデータセットの被験者間およびクロスビューテストでそれぞれ84.9%と92.3%の認識精度を達成し、UT-Kinectデータセットで100%の認識精度も達成します。 DeepGRUは、多数のトレーニングサンプルを含む大規模なデータセットで適切に機能しますが、多数のトレーニングデータがなくても、クラスあたりわずか4サンプルで、DeepGRUは小規模なトレーニングセット用に特別に設計された従来の方法に勝ることを示しています。最後に、強力なハードウェアがなくてもCPUのみを使用する場合でも、小規模なデータセットで10分未満でトレーニングできるため、迅速なアプリケーションのプロトタイピングと開発に魅力的な選択肢であることを実証します。
We propose DeepGRU, a novel end-to-end deep network model informed by recent developments in deep learning for gesture and action recognition, that is streamlined and device-agnostic. DeepGRU, which uses only raw skeleton, pose or vector data is quickly understood, implemented, and trained, and yet achieves state-of-the-art results on challenging datasets. At the heart of our method lies a set of stacked gated recurrent units (GRU), two fully-connected layers and a novel global attention model. We evaluate our method on seven publicly available datasets, containing various number of samples and spanning over a broad range of interactions (full-body, multi-actor, hand gestures, etc.). In all but one case we outperform the state-of-the-art pose-based methods. For instance, we achieve a recognition accuracy of 84.9% and 92.3% on cross-subject and cross-view tests of the NTU RGB+D dataset respectively, and also 100% recognition accuracy on the UT-Kinect dataset. While DeepGRU works well on large datasets with many training samples, we show that even in the absence of a large number of training data, and with as little as four samples per class, DeepGRU can beat traditional methods specifically designed for small training sets. Lastly, we demonstrate that even without powerful hardware, and using only the CPU, our method can still be trained in under 10 minutes on small-scale datasets, making it an enticing choice for rapid application prototyping and development.
updated: Thu Oct 10 2019 05:41:24 GMT+0000 (UTC)
published: Tue Oct 30 2018 03:43:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト