arXiv reaDer
スケルトンベースの行動認識のための時空間タプルトランスフォーマー
Spatio-Temporal Tuples Transformer for Skeleton-Based Action Recognition
スケルトンベースのアクション認識タスクでは、関節間の依存関係をキャプチャすることが重要です。トランスフォーマーは、重要な関節の相関関係をモデル化する大きな可能性を示しています。ただし、既存のTransformerベースの方法では、フレーム間のさまざまな関節の相関関係をキャプチャできません。これは、隣接するフレーム間のさまざまな身体部分(「走り幅跳び」の腕や脚など)が一緒に移動するため、非常に便利です。この問題に焦点を当てて、新しい時空間タプルトランスフォーマー(STTFormer)メソッドを提案します。スケルトンシーケンスはいくつかの部分に分割され、各部分に含まれるいくつかの連続したフレームがエンコードされます。次に、時空間タプルの自己注意モジュールを提案して、連続するフレーム内のさまざまな関節の関係をキャプチャします。さらに、機能集約モジュールが隣接していないフレーム間に導入され、類似したアクションを区別する機能が強化されています。最先端の方法と比較して、私たちの方法は2つの大規模なデータセットでより良いパフォーマンスを達成します。
Capturing the dependencies between joints is critical in skeleton-based action recognition task. Transformer shows great potential to model the correlation of important joints. However, the existing Transformer-based methods cannot capture the correlation of different joints between frames, which the correlation is very useful since different body parts (such as the arms and legs in "long jump") between adjacent frames move together. Focus on this problem, A novel spatio-temporal tuples Transformer (STTFormer) method is proposed. The skeleton sequence is divided into several parts, and several consecutive frames contained in each part are encoded. And then a spatio-temporal tuples self-attention module is proposed to capture the relationship of different joints in consecutive frames. In addition, a feature aggregation module is introduced between non-adjacent frames to enhance the ability to distinguish similar actions. Compared with the state-of-the-art methods, our method achieves better performance on two large-scale datasets.
updated: Sat Jan 08 2022 16:03:01 GMT+0000 (UTC)
published: Sat Jan 08 2022 16:03:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト