arXiv reaDer
スケルトン-対照的な3Dアクション表現学習
Skeleton-Contrastive 3D Action Representation Learning
この論文は、骨格ベースの行動認識に適した特徴空間の自己教師あり学習に努めています。私たちの提案は、入力スケルトン表現への不変性と、ノイズの対比推定によるさまざまなスケルトン拡張の学習に基づいています。特に、複数の異なる入力スケルトン表現からクロスコントラスト方式で学習するスケルトン間対照学習を提案します。さらに、モデルがスケルトンデータの時空間ダイナミクスを学習することをさらに促進する、いくつかのスケルトン固有の空間的および時間的拡張を提供します。異なるスケルトン表現と同じシーケンスの拡張ビュー間の類似性を学習することにより、ネットワークは、拡張ビューのみを使用する場合よりも、スケルトンデータの高レベルのセマンティクスを学習するように促されます。私たちのアプローチは、アクション認識、アクション検索、半教師あり学習など、複数のダウンストリームタスクを使用して、挑戦的なPKUおよびNTUデータセットのスケルトンデータから自己教師あり学習の最先端のパフォーマンスを実現します。コードはhttps://github.com/fmthoker/skeleton-contrastで入手できます。
This paper strives for self-supervised learning of a feature space suitable for skeleton-based action recognition. Our proposal is built upon learning invariances to input skeleton representations and various skeleton augmentations via a noise contrastive estimation. In particular, we propose inter-skeleton contrastive learning, which learns from multiple different input skeleton representations in a cross-contrastive manner. In addition, we contribute several skeleton-specific spatial and temporal augmentations which further encourage the model to learn the spatio-temporal dynamics of skeleton data. By learning similarities between different skeleton representations as well as augmented views of the same sequence, the network is encouraged to learn higher-level semantics of the skeleton data than when only using the augmented views. Our approach achieves state-of-the-art performance for self-supervised learning from skeleton data on the challenging PKU and NTU datasets with multiple downstream tasks, including action recognition, action retrieval and semi-supervised learning. Code is available at https://github.com/fmthoker/skeleton-contrast.
updated: Sun Aug 08 2021 14:44:59 GMT+0000 (UTC)
published: Sun Aug 08 2021 14:44:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト