arXiv reaDer
スケルトン画像のドメイン不変特徴による行動認識
Action Recognition with Domain Invariant Features of Skeleton Image
処理速度と堅牢性が高速であるため、スケルトンベースのアクション認識は最近コンピュータビジョンコミュニティの注目を集めています。最近の畳み込みニューラルネットワーク(CNN)ベースの方法は、CNNへの入力としてスケルトン画像を使用するスケルトンシーケンスの時空間表現の学習において、称賛に値するパフォーマンスを示しています。 CNNベースの方法では、主に側頭関節と骨格関節をそれぞれ行と列として単純にエンコードするため、2D畳み込みによって、すべての関節に関連する潜在的な相関関係が失われる可能性があります。この問題を解決するために、アクション認識のための敵対的トレーニングを備えた新しいCNNベースの方法を提案します。 2レベルドメインの敵対的学習を導入して、それぞれ異なる視野角または被写体からのスケルトン画像の特徴を調整し、一般化をさらに改善します。提案した方法をNTURGB + Dで評価しました。最先端の方法と比較して競争力のある結果を達成し、クロスサブジェクトとクロスビューのベースラインよりも2.4%、1.9%の精度向上を実現します。
Due to the fast processing-speed and robustness it can achieve, skeleton-based action recognition has recently received the attention of the computer vision community. The recent Convolutional Neural Network (CNN)-based methods have shown commendable performance in learning spatio-temporal representations for skeleton sequence, which use skeleton image as input to a CNN. Since the CNN-based methods mainly encoding the temporal and skeleton joints simply as rows and columns, respectively, the latent correlation related to all joints may be lost caused by the 2D convolution. To solve this problem, we propose a novel CNN-based method with adversarial training for action recognition. We introduce a two-level domain adversarial learning to align the features of skeleton images from different view angles or subjects, respectively, thus further improve the generalization. We evaluated our proposed method on NTU RGB+D. It achieves competitive results compared with state-of-the-art methods and 2.4%, 1.9% accuracy gain than the baseline for cross-subject and cross-view.
updated: Fri Nov 19 2021 08:05:54 GMT+0000 (UTC)
published: Fri Nov 19 2021 08:05:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト