この論文は、ビデオにおける骨格ベースの人間の行動認識の挑戦に貢献しています。重要なステップは、時空間スケルトンデータの識別機能を抽出するための汎用ネットワークアーキテクチャを開発することです。この論文では、ログ署名層とリカレント型ニューラルネットワーク(RNN)の組み合わせである新しいモジュール、すなわちLogsig-RNNを提案します。前者は、ストリーミングデータの表現としての署名とログ署名の数学的に原理化されたテクノロジーに由来し、高サンプルレートのストリーム、不均一なサンプリング、および可変長の時系列を管理できます。これは、ニューラルネットワークに便利に接続できる反復層の拡張として機能します。さらに、Logsig-RNNモジュールに入力された重要な情報を保持しながら、パスの次元を大幅に削減する2つのパス変換レイヤーを提案します。最後に、数値結果は、SOTAネットワークでRNNモジュールをLogsig-RNNモジュールに置き換えると、精度と堅牢性の観点から、ChalearnジェスチャデータとNTU RGB + D120アクションデータの両方のパフォーマンスが一貫して向上することを示しています。特に、単純なパス変換レイヤーをLogsig-RNNと組み合わせることにより、Chalearn2013ジェスチャデータの最先端の精度を実現します。コードはhttps://github.com/steveliao93/GCN_LogsigRNNで入手できます。
This paper contributes to the challenge of skeleton-based human action recognition in videos. The key step is to develop a generic network architecture to extract discriminative features for the spatio-temporal skeleton data. In this paper, we propose a novel module, namely Logsig-RNN, which is the combination of the log-signature layer and recurrent type neural networks (RNNs). The former one comes from the mathematically principled technology of signatures and log-signatures as representations for streamed data, which can manage high sample rate streams, non-uniform sampling and time series of variable length. It serves as an enhancement of the recurrent layer, which can be conveniently plugged into neural networks. Besides we propose two path transformation layers to significantly reduce path dimension while retaining the essential information fed into the Logsig-RNN module. Finally, numerical results demonstrate that replacing the RNN module by the Logsig-RNN module in SOTA networks consistently improves the performance on both Chalearn gesture data and NTU RGB+D 120 action data in terms of accuracy and robustness. In particular, we achieve the state-of-the-art accuracy on Chalearn2013 gesture data by combining simple path transformation layers with the Logsig-RNN. Codes are available at https://github.com/steveliao93/GCN_LogsigRNN.