arXiv reaDer
内容と場所:行動認識のための意味論的および空間的観点からのスケルトンのモデリング
What and Where: Modeling Skeletons from Semantic and Spatial Perspectives for Action Recognition
人間の関節の2D / 3D座標のみで構成される骨格データは、人間の行動認識のために広く研究されてきました。既存の方法では、セマンティクスを事前知識として使用して、人間の関節をグループ化し、空間的な位置に従って相関関係を描画します。これを、スケルトンモデリングのセマンティックパースペクティブと呼びます。この論文では、以前のアプローチとは対照的に、モデルが人間の関節をグループ化し、階層的な方法で局所領域の識別パターンをマイニングするための事前知識として空間位置を取得する、新しい空間的視点からスケルトンをモデル化することを提案します。 2つの視点は直交しており、互いに補完的です。そして、それらを統一されたフレームワークに融合することにより、私たちの方法はスケルトンデータのより包括的な理解を実現します。さらに、2つの観点に合わせて2つのネットワークをカスタマイズしました。セマンティックの観点から、ジョイント相関のモデリングに精通したTransformerのようなネットワークを提案し、それをスケルトンデータに適応させるための3つの効果的な手法を提示します。空間的な観点から、効率的な特徴抽出のためにスケルトンデータをスパース形式に変換し、スパーススケルトンモデリングのために2種類のスパース畳み込みネットワークを提示します。骨格ベースの人間の行動/ジェスチャ認識のための3つの挑戦的なデータセット、すなわちNTU-60、NTU-120、およびSHRECで広範な実験が行われ、私たちの方法は最先端のパフォーマンスを実現します。
Skeleton data, which consists of only the 2D/3D coordinates of the human joints, has been widely studied for human action recognition. Existing methods take the semantics as prior knowledge to group human joints and draw correlations according to their spatial locations, which we call the semantic perspective for skeleton modeling. In this paper, in contrast to previous approaches, we propose to model skeletons from a novel spatial perspective, from which the model takes the spatial location as prior knowledge to group human joints and mines the discriminative patterns of local areas in a hierarchical manner. The two perspectives are orthogonal and complementary to each other; and by fusing them in a unified framework, our method achieves a more comprehensive understanding of the skeleton data. Besides, we customized two networks for the two perspectives. From the semantic perspective, we propose a Transformer-like network that is expert in modeling joint correlations, and present three effective techniques to adapt it for skeleton data. From the spatial perspective, we transform the skeleton data into the sparse format for efficient feature extraction and present two types of sparse convolutional networks for sparse skeleton modeling. Extensive experiments are conducted on three challenging datasets for skeleton-based human action/gesture recognition, namely, NTU-60, NTU-120 and SHREC, where our method achieves state-of-the-art performance.
updated: Mon Mar 22 2021 12:31:40 GMT+0000 (UTC)
published: Tue Apr 07 2020 10:53:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト