ポーズとモーションの事前設定は、ノイズの多い観察からリアルで正確な人間の動きを復元するために非常に重要です。画像からのポーズと形状の推定は大幅に進歩しており、最近の研究では、事前分布を使用してフレームごとの予測を洗練する素晴らしい結果が示されました。ただし、多くのモーション プリアは連続したポーズ間の遷移をモデル化するだけであり、時間のかかる最適化手順で使用されます。これは、リアルタイム モーション キャプチャを必要とする多くのアプリケーションにとって問題となります。人間の動きの短期的な依存関係を捉える前のモーションである Motion-DVAE を紹介します。動的変分オートエンコーダ (DVAE) モデル ファミリの一部として、Motion-DVAE は、VAE モデルの生成機能とリカレント アーキテクチャの時間モデリングを組み合わせています。 Motion-DVAE と併せて、回帰ベースのアプローチと最適化ベースのアプローチを単一のフレームワークに統合して、リアルタイム 3D 人間の姿勢推定を行う教師なし学習型ノイズ除去手法を導入します。実験によると、提案されたアプローチは、最先端の方法ではるかに高速でありながら、競争力のあるパフォーマンスに達することが示されています。
Pose and motion priors are crucial for recovering realistic and accurate human motion from noisy observations. Substantial progress has been made on pose and shape estimation from images, and recent works showed impressive results using priors to refine frame-wise predictions. However, a lot of motion priors only model transitions between consecutive poses and are used in time-consuming optimization procedures, which is problematic for many applications requiring real-time motion capture. We introduce Motion-DVAE, a motion prior to capture the short-term dependencies of human motion. As part of the dynamical variational autoencoder (DVAE) models family, Motion-DVAE combines the generative capability of VAE models and the temporal modeling of recurrent architectures. Together with Motion-DVAE, we introduce an unsupervised learned denoising method unifying regression- and optimization-based approaches in a single framework for real-time 3D human pose estimation. Experiments show that the proposed approach reaches competitive performance with state-of-the-art methods while being much faster.