arXiv reaDer
スケルトンベースの行動認識のための時間グラフモデリング
Temporal Graph Modeling for Skeleton-based Action Recognition
スケルトンデータをグラフとしてモデル化するグラフ畳み込みネットワーク(GCN)は、スケルトンベースの行動認識で優れたパフォーマンスを発揮します。特に、骨格シーケンスの時間的ダイナミクスは、認識タスクで重要な情報を伝えます。時間的動的モデリングの場合、GCNベースの方法では、多層1Dローカル畳み込みのみをスタックして、隣接するタイムステップ間の時間的関係を抽出します。多くの局所畳み込みが繰り返されると、情報の希薄化のために、時間距離が隣接していない主要な時間情報が無視される可能性があります。したがって、これらの方法は、骨格シーケンスの時間的ダイナミクスを完全に探索する方法がまだ不明です。この論文では、この制限に取り組むために、時間的拡張グラフ畳み込みネットワーク(TE-GCN)を提案します。提案されたTE-GCNは、複雑な時間的ダイナミクスをキャプチャするために時間的関係グラフを構築します。具体的には、構築された時間関係グラフは、意味的に関連する時間的特徴間の接続を明示的に構築して、隣接する時間ステップと隣接しない時間ステップの両方の間の時間的関係をモデル化します。一方、十分な時間的動的をさらに調査するために、マルチヘッドメカニズムは、複数の種類の時間的関係を調査するように設計されています。広く使用されている2つの大規模データセット、NTU-60 RGB + DとNTU-120RGB + Dで広範な実験が行われます。そして実験結果は、提案されたモデルが行動認識のための時間的モデリングに貢献することによって最先端のパフォーマンスを達成することを示しています。
Graph Convolutional Networks (GCNs), which model skeleton data as graphs, have obtained remarkable performance for skeleton-based action recognition. Particularly, the temporal dynamic of skeleton sequence conveys significant information in the recognition task. For temporal dynamic modeling, GCN-based methods only stack multi-layer 1D local convolutions to extract temporal relations between adjacent time steps. With the repeat of a lot of local convolutions, the key temporal information with non-adjacent temporal distance may be ignored due to the information dilution. Therefore, these methods still remain unclear how to fully explore temporal dynamic of skeleton sequence. In this paper, we propose a Temporal Enhanced Graph Convolutional Network (TE-GCN) to tackle this limitation. The proposed TE-GCN constructs temporal relation graph to capture complex temporal dynamic. Specifically, the constructed temporal relation graph explicitly builds connections between semantically related temporal features to model temporal relations between both adjacent and non-adjacent time steps. Meanwhile, to further explore the sufficient temporal dynamic, multi-head mechanism is designed to investigate multi-kinds of temporal relations. Extensive experiments are performed on two widely used large-scale datasets, NTU-60 RGB+D and NTU-120 RGB+D. And experimental results show that the proposed model achieves the state-of-the-art performance by making contribution to temporal modeling for action recognition.
updated: Wed Dec 16 2020 09:02:47 GMT+0000 (UTC)
published: Wed Dec 16 2020 09:02:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト