arXiv reaDer
人間の骨格表現学習のための階層的に自己監視されたトランスフォーマー
Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning
完全に監視された人間の骨格シーケンスモデリングの成功にもかかわらず、大規模なタスク固有の骨格注釈を取得することは困難であるため、骨格シーケンス表現学習のための自己監視事前トレーニングの利用は活発な分野でした。最近の研究は、対照的な学習を使用してビデオレベルの時間的および識別的情報を学習することに焦点を当てていますが、人間の骨格の階層的な時空間的性質を見落としています。ビデオレベルでのこのような表面的な監視とは異なり、空間、短期、および長期を明示的にキャプチャするために、階層型Transformerベースのスケルトンシーケンスエンコーダー(Hi-TRS)に組み込まれた自己監視型の階層型事前トレーニングスキームを提案します。それぞれフレーム、クリップ、およびビデオレベルでの時間的依存関係。 Hi-TRSを使用して提案された自己監視事前トレーニングスキームを評価するために、行動認識、行動検出、および運動予測を含む3つのスケルトンベースのダウンストリームタスクをカバーする広範な実験を実施します。教師あり評価プロトコルと半教師あり評価プロトコルの両方で、私たちの方法は最先端のパフォーマンスを実現します。さらに、トレーニング前の段階でモデルによって学習された事前知識が、さまざまなダウンストリームタスクに対して強力な転送機能を備えていることを示します。
Despite the success of fully-supervised human skeleton sequence modeling, utilizing self-supervised pre-training for skeleton sequence representation learning has been an active field because acquiring task-specific skeleton annotations at large scales is difficult. Recent studies focus on learning video-level temporal and discriminative information using contrastive learning, but overlook the hierarchical spatial-temporal nature of human skeletons. Different from such superficial supervision at the video level, we propose a self-supervised hierarchical pre-training scheme incorporated into a hierarchical Transformer-based skeleton sequence encoder (Hi-TRS), to explicitly capture spatial, short-term, and long-term temporal dependencies at frame, clip, and video levels, respectively. To evaluate the proposed self-supervised pre-training scheme with Hi-TRS, we conduct extensive experiments covering three skeleton-based downstream tasks including action recognition, action detection, and motion prediction. Under both supervised and semi-supervised evaluation protocols, our method achieves the state-of-the-art performance. Additionally, we demonstrate that the prior knowledge learned by our model in the pre-training stage has strong transfer capability for different downstream tasks.
updated: Mon Mar 27 2023 10:35:11 GMT+0000 (UTC)
published: Wed Jul 20 2022 04:21:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト