わずか2つのビューの多視点ビデオ(MVV)から、人間のパフォーマンスの3D関節式ポーズと高忠実度体積占有率を同時に推定することを目指しています。マルチチャネル対称3Dたたみ込みエンコーダーデコーダーとデュアルロスを使用して、骨格関節の位置の推論とパフォーマンスの体積再構成を可能にする潜在的埋め込みの学習を強制します。推論は、幅広い主題と行動のビューアブレーションされたマルチビュービデオ映像のデータセットで事前に学習されたものを介して正則化され、これを示して、目に見えない主題とアクション全体で一般化します。 2つのMVVパフォーマンスキャプチャデータセット(Human 3.6MとTotalCapture)での以前の作業と比較して、再構成の精度が向上し、姿勢推定エラーが低下することを示します。
We aim to simultaneously estimate the 3D articulated pose and high fidelity volumetric occupancy of human performance, from multiple viewpoint video (MVV) with as few as two views. We use a multi-channel symmetric 3D convolutional encoder-decoder with a dual loss to enforce the learning of a latent embedding that enables inference of skeletal joint positions and a volumetric reconstruction of the performance. The inference is regularised via a prior learned over a dataset of view-ablated multi-view video footage of a wide range of subjects and actions, and show this to generalise well across unseen subjects and actions. We demonstrate improved reconstruction accuracy and lower pose estimation error relative to prior work on two MVV performance capture datasets: Human 3.6M and TotalCapture.