arXiv reaDer
STMT: モーション キャプチャ ベースのアクション認識のための時空間メッシュ トランスフォーマー
STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition
モーション キャプチャ (MoCap) シーケンスを使用した人間の行動認識の問題を研究します。標準化されたスケルトン表現をモデル入力として導出するために複数の手動ステップを必要とする既存の手法とは異なり、メッシュ シーケンスを直接モデル化するための新しい時空間メッシュ トランスフォーマー (STMT) を提案します。このモデルは、フレーム内オフセット アテンションとフレーム間セルフ アテンションを備えた階層型トランスフォーマーを使用します。注意メカニズムにより、モデルは任意の 2 つの頂点パッチの間に自由に参加して、時空間ドメインで非局所的な関係を学習できます。マスクされた頂点モデリングと将来のフレーム予測は、2 つの自己監視タスクとして使用され、階層トランスフォーマーの双方向および自己回帰注意を完全にアクティブにします。提案された方法は、一般的な MoCap ベンチマークで、スケルトン ベースおよびポイント クラウド ベースのモデルと比較して、最先端のパフォーマンスを実現します。コードは https://github.com/zgzxy001/STMT で入手できます。
We study the problem of human action recognition using motion capture (MoCap) sequences. Unlike existing techniques that take multiple manual steps to derive standardized skeleton representations as model input, we propose a novel Spatial-Temporal Mesh Transformer (STMT) to directly model the mesh sequences. The model uses a hierarchical transformer with intra-frame off-set attention and inter-frame self-attention. The attention mechanism allows the model to freely attend between any two vertex patches to learn non-local relationships in the spatial-temporal domain. Masked vertex modeling and future frame prediction are used as two self-supervised tasks to fully activate the bi-directional and auto-regressive attention in our hierarchical transformer. The proposed method achieves state-of-the-art performance compared to skeleton-based and point-cloud-based models on common MoCap benchmarks. Code is available at https://github.com/zgzxy001/STMT.
updated: Fri Mar 31 2023 16:19:27 GMT+0000 (UTC)
published: Fri Mar 31 2023 16:19:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト