グラフ畳み込みネットワーク(GCN)は、時空間グラフとしてモデル化されたアクションを形成する体の骨格のシーケンスなど、非ユークリッドデータ構造のモデル化に非常に成功しています。ほとんどのGCNベースのアクション認識方法は、計算の複雑さが高いディープフィードフォワードネットワークを使用して、アクション内のすべてのスケルトンを処理します。これにより、単一のサンプルを処理するための多数の浮動小数点演算(16Gから100G FLOPの範囲)が発生し、制限された計算アプリケーションシナリオでの採用が不可能になります。この論文では、ネットワークの初期層でアクションの最も有益なスケルトンを選択することにより、スケルトンベースのアクション認識の効率を高めるための時間的注意モジュール(TAM)を提案します。 TAMを軽量のGCNトポロジに組み込んで、計算の総数をさらに削減します。 2つのベンチマークデータセットでの実験結果は、提案された方法がベースラインのGCNベースの方法を大幅に上回り、計算回数が2.9分の1であることを示しています。さらに、計算回数が最大9.6分の1で、最先端のパフォーマンスと同等のパフォーマンスを発揮します。
Graph convolutional networks (GCNs) have been very successful in modeling non-Euclidean data structures, like sequences of body skeletons forming actions modeled as spatio-temporal graphs. Most GCN-based action recognition methods use deep feed-forward networks with high computational complexity to process all skeletons in an action. This leads to a high number of floating point operations (ranging from 16G to 100G FLOPs) to process a single sample, making their adoption in restricted computation application scenarios infeasible. In this paper, we propose a temporal attention module (TAM) for increasing the efficiency in skeleton-based action recognition by selecting the most informative skeletons of an action at the early layers of the network. We incorporate the TAM in a light-weight GCN topology to further reduce the overall number of computations. Experimental results on two benchmark datasets show that the proposed method outperforms with a large margin the baseline GCN-based method while having 2.9 times less number of computations. Moreover, it performs on par with the state-of-the-art with up to 9.6 times less number of computations.