arXiv reaDer
自己監視スケルトンベースの行動認識のためのコントラスト再構成表現学習
Contrast-reconstruction Representation Learning for Self-supervised Skeleton-based Action Recognition
スケルトンベースのアクション認識は、監視や人間と機械の相互作用など、さまざまな分野で広く使用されています。既存のモデルは主に教師あり学習で学習されるため、大規模なラベル付きデータに大きく依存します。これは、ラベルが法外に高価な場合には実行不可能になる可能性があります。この論文では、教師なしスケルトンベースのアクション認識のために姿勢とモーションダイナミクスを同時にキャプチャする新しいコントラスト再構成表現学習ネットワーク(CRRL)を提案します。これは主に、Sequence Reconstructor、Contrastive Motion Learner、およびInformationFuserの3つの部分で構成されています。シーケンスリコンストラクターは、再構成を介してスケルトン座標シーケンスから表現を学習します。したがって、学習された表現は、些細な姿勢座標に焦点を合わせ、モーション学習に躊躇する傾向があります。モーションの学習を強化するために、Contrastive Motion Learnerは、座標シーケンスと追加の速度シーケンスからそれぞれ学習した表現間でコントラスト学習を実行します。最後に、Information Fuserでは、SequenceReconstructorとContrastiveMotion Learnerを組み合わせるさまざまな戦略を検討し、モーション学習をContrastive MotionLearnerからSequenceに転送する知識蒸留ベースの融合戦略を介して姿勢と動きを同時にキャプチャすることを提案します。リコンストラクター。いくつかのベンチマーク、つまりNTU RGB + D 60、NTU RGB + D 120、CMUモーションキャプチャ、およびNW-UCLAでの実験結果は、最先端のアプローチをはるかに上回る、提案されたCRRLメソッドの可能性を示しています。
Skeleton-based action recognition is widely used in varied areas, e.g., surveillance and human-machine interaction. Existing models are mainly learned in a supervised manner, thus heavily depending on large-scale labeled data which could be infeasible when labels are prohibitively expensive. In this paper, we propose a novel Contrast-Reconstruction Representation Learning network (CRRL) that simultaneously captures postures and motion dynamics for unsupervised skeleton-based action recognition. It mainly consists of three parts: Sequence Reconstructor, Contrastive Motion Learner, and Information Fuser. The Sequence Reconstructor learns representation from skeleton coordinate sequence via reconstruction, thus the learned representation tends to focus on trivial postural coordinates and be hesitant in motion learning. To enhance the learning of motions, the Contrastive Motion Learner performs contrastive learning between the representations learned from coordinate sequence and additional velocity sequence, respectively. Finally, in the Information Fuser, we explore varied strategies to combine the Sequence Reconstructor and Contrastive Motion Learner, and propose to capture postures and motions simultaneously via a knowledge-distillation based fusion strategy that transfers the motion learning from the Contrastive Motion Learner to the Sequence Reconstructor. Experimental results on several benchmarks, i.e., NTU RGB+D 60, NTU RGB+D 120, CMU mocap, and NW-UCLA, demonstrate the promise of the proposed CRRL method by far outperforming state-of-the-art approaches.
updated: Mon Nov 22 2021 08:45:34 GMT+0000 (UTC)
published: Mon Nov 22 2021 08:45:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト