SVMAC: Unsupervised 3D Human Pose Estimation from a Single Image with Single-view-multi-angle Consistenty
2D関節から3D人間のポーズを復元することは、特に3D注釈、ビデオ情報、またはマルチビュー情報がない場合、依然として困難な問題です。この論文では、3D注釈のない単一の画像から3D人間のポーズを推定するために、複数の重み共有ジェネレータで構成される監視されていないGANベースのモデルを提示します。私たちのモデルでは、推定パフォーマンスを大幅に向上させるために、シングルビュー-マルチアングル整合性(SVMAC)を導入します。 2D関節位置を入力として使用して、モデルは3Dポーズとカメラを同時に推定します。トレーニング中、推定された3Dポーズはランダムな角度で回転し、推定されたカメラは回転した3Dポーズを2Dに投影します。 2D再投影は、対応する3Dポーズとカメラを推定するために重み共有ジェネレーターに送られ、トレーニングプロセスを自己監視するためにSVMAC制約を課すために混合されます。実験結果は、私たちの方法が、Human 3.6Mで2.6%、MPI-INF-3DHPで15.0%、最先端の監視されていない方法を上回っていることを示しています。さらに、MPIIとLSPの定性的結果は、私たちの方法が未知のデータにうまく一般化できることを示しています。
Recovering 3D human pose from 2D joints is still a challenging problem, especially without any 3D annotation, video information, or multi-view information. In this paper, we present an unsupervised GAN-based model consisting of multiple weight-sharing generators to estimate a 3D human pose from a single image without 3D annotations. In our model, we introduce single-view-multi-angle consistency (SVMAC) to significantly improve the estimation performance. With 2D joint locations as input, our model estimates a 3D pose and a camera simultaneously. During training, the estimated 3D pose is rotated by random angles and the estimated camera projects the rotated 3D poses back to 2D. The 2D reprojections will be fed into weight-sharing generators to estimate the corresponding 3D poses and cameras, which are then mixed to impose SVMAC constraints to self-supervise the training process. The experimental results show that our method outperforms the state-of-the-art unsupervised methods by 2.6% on Human 3.6M and 15.0% on MPI-INF-3DHP. Moreover, qualitative results on MPII and LSP show that our method can generalize well to unknown data.
updated: Sun Aug 08 2021 02:00:58 GMT+0000 (UTC)
published: Thu Jun 10 2021 09:43:57 GMT+0000 (UTC)
