自己監視3D人間の姿勢推定のためのシンプルでありながら効果的なアプローチを提示します。前の作業とは異なり、マルチビュー自己監視の横にある時間情報を調査します。トレーニング中、マルチビューカメラシステムの2Dボディポーズ推定値の三角測量に依存します。時間畳み込みニューラルネットワークは、生成された3Dグラウンドトゥルースと幾何学的マルチビュー整合性損失を使用してトレーニングされ、予測された3Dボディスケルトンに幾何学的制約を課します。推論中に、モデルは単一ビューから一連の2D体位推定値を受け取り、それぞれの3D体位を予測します。広範な評価は、私たちの方法がHuman3.6MおよびMPI-INF-3DHPベンチマークで最先端のパフォーマンスを達成することを示しています。私たちのコードとモデルはhttps://github.com/vru2020/TM_HPE/で公開されています。
We present a simple, yet effective, approach for self-supervised 3D human pose estimation. Unlike the prior work, we explore the temporal information next to the multi-view self-supervision. During training, we rely on triangulating 2D body pose estimates of a multiple-view camera system. A temporal convolutional neural network is trained with the generated 3D ground-truth and the geometric multi-view consistency loss, imposing geometrical constraints on the predicted 3D body skeleton. During inference, our model receives a sequence of 2D body pose estimates from a single-view to predict the 3D body pose for each of them. An extensive evaluation shows that our method achieves state-of-the-art performance in the Human3.6M and MPI-INF-3DHP benchmarks. Our code and models are publicly available at https://github.com/vru2020/TM_HPE/.