arXiv reaDer
UNIK: A Unified Framework for Real-world Skeleton-based Action Recognition
スケルトンデータに基づく行動認識は、最近ますます注目と進歩を目撃しています。グラフ畳み込みネットワーク(GCN)を採用した最先端のアプローチにより、事前定義された人間のトポロジーに依存して、人間の骨格の特徴を効果的に抽出できます。関連する進歩にもかかわらず、GCNベースの方法は、特に異なる人間のトポロジー構造で、ドメイン間で一般化するのが困難です。これに関連して、人間の骨格シーケンスの時空間的特徴を学習するのに効果的であるだけでなく、データセット全体で一般化できる、新しい骨格ベースのアクション認識方法であるUNIKを紹介します。これは、マルチヘッドアテンションメカニズムに基づく一様分布から最適な依存関係マトリックスを学習することによって実現されます。続いて、実際のビデオでのスケルトンベースのアクション認識のクロスドメイン一般化可能性を研究するために、新しいPoseticsデータセットに照らして、最先端のアプローチと提案されたUNIKを再評価します。このデータセットは、ポーズを推定、調整、フィルタリングすることにより、Kinetics-400ビデオから作成されます。アクション分類タスクのPoseticsで事前トレーニングした後、より小さなベンチマークデータセットでパフォーマンスがどの程度向上するかについての分析を提供します。実験結果は、提案されたUNIKは、Poseticsの事前トレーニングを使用して、4つのターゲットアクション分類データセット(Toyota Smarthome、Penn Action、NTU-RGB + D 60、およびNTU- RGB + D120。
Action recognition based on skeleton data has recently witnessed increasing attention and progress. State-of-the-art approaches adopting Graph Convolutional networks (GCNs) can effectively extract features on human skeletons relying on the pre-defined human topology. Despite associated progress, GCN-based methods have difficulties to generalize across domains, especially with different human topological structures. In this context, we introduce UNIK, a novel skeleton-based action recognition method that is not only effective to learn spatio-temporal features on human skeleton sequences but also able to generalize across datasets. This is achieved by learning an optimal dependency matrix from the uniform distribution based on a multi-head attention mechanism. Subsequently, to study the cross-domain generalizability of skeleton-based action recognition in real-world videos, we re-evaluate state-of-the-art approaches as well as the proposed UNIK in light of a novel Posetics dataset. This dataset is created from Kinetics-400 videos by estimating, refining and filtering poses. We provide an analysis on how much performance improves on smaller benchmark datasets after pre-training on Posetics for the action classification task. Experimental results show that the proposed UNIK, with pre-training on Posetics, generalizes well and outperforms state-of-the-art when transferred onto four target action classification datasets: Toyota Smarthome, Penn Action, NTU-RGB+D 60 and NTU-RGB+D 120.
updated: Mon Jul 19 2021 02:00:28 GMT+0000 (UTC)
published: Mon Jul 19 2021 02:00:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト