Unsupervised View-Invariant Human Posture Representation
最新のビュー不変アクション認識およびパフォーマンス評価アプローチは、ビュー不変の特徴を抽出するために、大量の注釈付き3Dスケルトンデータに依存しています。ただし、3Dスケルトンデータの取得は、実際のシナリオでは、非現実的ではないにしても、面倒な場合があります。この問題を克服するために、3Dジョイントデータを使用せずに2D画像からビュー不変の3D人間のポーズ表現を抽出することを学習する新しい教師なしアプローチを提示します。私たちのモデルは、異なる視点からの同時フレーム間の人間のポーズの固有のビュー不変特性と、同じ視点からの拡張フレーム間のそれらの同変特性を活用することによってトレーニングされます。 2つのダウンストリームタスクについて、学習したビュー不変のポーズ表現を評価します。 RGB画像と深度画像の両方で、NTU RGB + Dの最新の教師なしクロスビューアクション分類精度が大幅に向上することを示す比較実験を実行します。また、学習した表現をNTU RGB + Dから転送して、マルチビューの人間の動きの品質データセットであるQMARで初めての教師なしクロスビューおよびクロスサブジェクトの順位相関結果を取得し、状態をわずかに改善する効率を示します。このデータセットの最新の教師なし結果。また、提案されたネットワークのさまざまなコンポーネントの寄与を調べるために、アブレーション調査を実施します。
Most recent view-invariant action recognition and performance assessment approaches rely on a large amount of annotated 3D skeleton data to extract view-invariant features. However, acquiring 3D skeleton data can be cumbersome, if not impractical, in in-the-wild scenarios. To overcome this problem, we present a novel unsupervised approach that learns to extract view-invariant 3D human pose representation from a 2D image without using 3D joint data. Our model is trained by exploiting the intrinsic view-invariant properties of human pose between simultaneous frames from different viewpoints and their equivariant properties between augmented frames from the same viewpoint. We evaluate the learned view-invariant pose representations for two downstream tasks. We perform comparative experiments that show improvements on the state-of-the-art unsupervised cross-view action classification accuracy on NTU RGB+D by a significant margin, on both RGB and depth images. We also show the efficiency of transferring the learned representations from NTU RGB+D to obtain the first ever unsupervised cross-view and cross-subject rank correlation results on the multi-view human movement quality dataset, QMAR, and marginally improve on the-state-of-the-art supervised results for this dataset. We also carry out ablation studies to examine the contributions of the different components of our proposed network.
updated: Mon Jul 08 2024 13:42:17 GMT+0000 (UTC)
published: Fri Sep 17 2021 19:23:31 GMT+0000 (UTC)
