arXiv reaDer
ワンショットスケルトンベースのアクション認識のための部分認識プロトタイプグラフネットワーク
Part-aware Prototypical Graph Network for One-shot Skeleton-based Action Recognition
このホワイトペーパーでは、ワンショットスケルトンベースのアクション認識の問題を研究します。これは、特にきめ細かいアクションについて、基本クラスから新しいクラスへの転送可能な表現を学習する際に独特の課題をもたらします。既存のメタ学習フレームワークは通常、空間次元での身体レベルの表現に依存しているため、一般化が制限されて、細粒度のラベル空間で微妙な視覚的な違いを捉えることができません。上記の制限を克服するために、ワンショットスケルトンベースのアクション認識の部分認識プロトタイプ表現を提案します。私たちの方法は、2 つの特徴的な空間レベルでスケルトンの動きのパターンをキャプチャします。1 つはボディ レベルと呼ばれる、すべてのボディ ジョイント間のグローバル コンテキスト用であり、もう 1 つは、パーツ レベルと呼ばれるボディ パーツの局所的な空間領域に対応します。また、クラスにとらわれない注意メカニズムを考案して、各アクション クラスの重要な部分を強調表示します。具体的には、3 つのモジュールで構成される部分認識プロトタイプ グラフ ネットワークを開発します。デュアルレベル モデリング用のカスケード埋め込みモジュール、部分を融合して部分認識プロトタイプを生成する注意ベースの部分融合モジュール、実行するマッチング モジュールです。部分認識表現による分類。 NTU RGB+D 120 と NW-UCLA の 2 つのパブリック スケルトン ベースのアクション認識データセットで、この方法の有効性を実証します。
In this paper, we study the problem of one-shot skeleton-based action recognition, which poses unique challenges in learning transferable representation from base classes to novel classes, particularly for fine-grained actions. Existing meta-learning frameworks typically rely on the body-level representations in spatial dimension, which limits the generalisation to capture subtle visual differences in the fine-grained label space. To overcome the above limitation, we propose a part-aware prototypical representation for one-shot skeleton-based action recognition. Our method captures skeleton motion patterns at two distinctive spatial levels, one for global contexts among all body joints, referred to as body level, and the other attends to local spatial regions of body parts, referred to as the part level. We also devise a class-agnostic attention mechanism to highlight important parts for each action class. Specifically, we develop a part-aware prototypical graph network consisting of three modules: a cascaded embedding module for our dual-level modelling, an attention-based part fusion module to fuse parts and generate part-aware prototypes, and a matching module to perform classification with the part-aware representations. We demonstrate the effectiveness of our method on two public skeleton-based action recognition datasets: NTU RGB+D 120 and NW-UCLA.
updated: Fri Aug 19 2022 04:54:56 GMT+0000 (UTC)
published: Fri Aug 19 2022 04:54:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト