arXiv reaDer
スケルトンベースの行動認識のための時空間トランスフォーマーネットワーク
Spatial Temporal Transformer Network for Skeleton-based Action Recognition
スケルトンベースの人間の行動認識は、スケルトンデータが照明の変化、ボディスケール、動的なカメラビュー、および複雑な背景に対して堅牢であることが実証されているため、近年大きな関心を集めています。それにもかかわらず、3Dスケルトンの基礎となる潜在情報の効果的なエンコードは未解決の問題です。この作業では、トランスフォーマーの自己注意演算子を使用して関節間の依存関係をモデル化する新しい空間-時間トランスフォーマーネットワーク(ST-TR)を提案します。 ST-TRモデルでは、Spatial Self-Attentionモジュール(SSA)を使用して、さまざまな身体部分間のフレーム内相互作用を理解し、Temporal Self-Attentionモジュール(TSA)を使用してフレーム間の相関をモデル化します。この2つは、NTU-RGB + D60とNTU-RGB + D 120の両方で同じ入力データを使用して、最先端のモデルよりも優れた2ストリームネットワークで結合されます。
Skeleton-based human action recognition has achieved a great interest in recent years, as skeleton data has been demonstrated to be robust to illumination changes, body scales, dynamic camera views, and complex background. Nevertheless, an effective encoding of the latent information underlying the 3D skeleton is still an open problem. In this work, we propose a novel Spatial-Temporal Transformer network (ST-TR) which models dependencies between joints using the Transformer self-attention operator. In our ST-TR model, a Spatial Self-Attention module (SSA) is used to understand intra-frame interactions between different body parts, and a Temporal Self-Attention module (TSA) to model inter-frame correlations. The two are combined in a two-stream network which outperforms state-of-the-art models using the same input data on both NTU-RGB+D 60 and NTU-RGB+D 120.
updated: Fri Dec 11 2020 14:58:21 GMT+0000 (UTC)
published: Fri Dec 11 2020 14:58:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト