arXiv reaDer
第三者の視点による自己中心的な3Dポーズ推定の強化
Enhancing Egocentric 3D Pose Estimation with Third Person Views
この論文では、単一のウェアラブルカメラからキャプチャされたビデオから計算された人物の3Dボディポーズ推定を強化するための新しいアプローチを提案します。重要なアイデアは、共同埋め込みスペースでファーストビューとサードビューをリンクする高レベルの機能を活用することです。このような埋め込みスペースを学習するために、First2Third-Poseを紹介します。これは、ファーストビューとサードビューの両方の観点からキャプチャされた人間の活動を描いた約2,000本のビデオの新しいペア同期データセットです。自己監視方式でトレーニングされたセミシャムアーキテクチャを使用して組み合わせた、空間ドメインとモーションドメインの機能を明示的に検討します。実験結果は、データセットで学習した共同マルチビュー埋め込みスペースが、ドメインの適応やカメラパラメータの知識を必要とせずに、任意のシングルビューの自己中心的なビデオから識別可能な特徴を抽出するのに役立つことを示しています。 3つの監視された最先端のアプローチを超えて、2つの制約のないデータセットで自己中心的な3Dボディポーズ推定パフォーマンスの大幅な改善を達成します。私たちのデータセットとコードは、研究目的で利用できるようになります。
In this paper, we propose a novel approach to enhance the 3D body pose estimation of a person computed from videos captured from a single wearable camera. The key idea is to leverage high-level features linking first- and third-views in a joint embedding space. To learn such embedding space we introduce First2Third-Pose, a new paired synchronized dataset of nearly 2,000 videos depicting human activities captured from both first- and third-view perspectives. We explicitly consider spatial- and motion-domain features, combined using a semi-Siamese architecture trained in a self-supervised fashion. Experimental results demonstrate that the joint multi-view embedded space learned with our dataset is useful to extract discriminatory features from arbitrary single-view egocentric videos, without needing domain adaptation nor knowledge of camera parameters. We achieve significant improvement of egocentric 3D body pose estimation performance on two unconstrained datasets, over three supervised state-of-the-art approaches. Our dataset and code will be available for research purposes.
updated: Fri Jan 07 2022 09:56:14 GMT+0000 (UTC)
published: Thu Jan 06 2022 11:42:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト