arXiv reaDer
人間のポーズのためのビュー不変、オクルージョンロバストな確率的埋め込み
View-Invariant, Occlusion-Robust Probabilistic Embedding for Human Pose
自律システムが人とスムーズに相互作用するためには、人間のポーズや行動を認識することが重要です。ただし、カメラは通常、人間のポーズを画像やビデオとして2Dでキャプチャするため、視点によって外観が大幅に異なるため、認識タスクが困難になります。これに対処するために、既存の作品では十分に研究されていない2D情報から3D人体ポーズの類似性を認識することを検討します。ここでは、3Dポーズを明示的に予測せずに、2Dボディジョイントキーポイントからコンパクトなビュー不変の埋め込み空間を学習するアプローチを提案します。投影とオクルージョンからの2Dポーズの入力のあいまいさは、決定論的マッピングでは表現が難しいため、埋め込み空間には確率論的定式化を採用しています。実験結果は、3Dポーズ推定モデルと比較して、異なるカメラビューで同様のポーズを取得するときに、埋め込みモデルがより高い精度を達成することを示しています。また、単純な時間埋め込みモデルをトレーニングすることで、ポーズシーケンス検索で優れたパフォーマンスを実現し、フレームベースの埋め込みを積み重ねることで埋め込み次元を大幅に削減して、効率的な大規模検索を実現できることも示します。さらに、埋め込みが部分的に表示される入力で機能できるようにするために、トレーニング中にさまざまなキーポイントオクルージョン拡張戦略をさらに調査します。これらのオクルージョン拡張により、部分的な2D入力ポーズでの検索パフォーマンスが大幅に向上することを示します。アクション認識とビデオアライメントの結果は、追加のトレーニングなしで埋め込みを使用すると、各タスク用に特別にトレーニングされた他のモデルと比較して競争力のあるパフォーマンスが達成されることを示しています。
Recognition of human poses and actions is crucial for autonomous systems to interact smoothly with people. However, cameras generally capture human poses in 2D as images and videos, which can have significant appearance variations across viewpoints that make the recognition tasks challenging. To address this, we explore recognizing similarity in 3D human body poses from 2D information, which has not been well-studied in existing works. Here, we propose an approach to learning a compact view-invariant embedding space from 2D body joint keypoints, without explicitly predicting 3D poses. Input ambiguities of 2D poses from projection and occlusion are difficult to represent through a deterministic mapping, and therefore we adopt a probabilistic formulation for our embedding space. Experimental results show that our embedding model achieves higher accuracy when retrieving similar poses across different camera views, in comparison with 3D pose estimation models. We also show that by training a simple temporal embedding model, we achieve superior performance on pose sequence retrieval and largely reduce the embedding dimension from stacking frame-based embeddings for efficient large-scale retrieval. Furthermore, in order to enable our embeddings to work with partially visible input, we further investigate different keypoint occlusion augmentation strategies during training. We demonstrate that these occlusion augmentations significantly improve retrieval performance on partial 2D input poses. Results on action recognition and video alignment demonstrate that using our embeddings without any additional training achieves competitive performance relative to other models specifically trained for each task.
updated: Fri Sep 10 2021 09:34:06 GMT+0000 (UTC)
published: Fri Oct 23 2020 17:58:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト