Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop
  モデルベースの人間の姿勢推定は、現在2つの異なるパラダイムを通じてアプローチされています。最適化ベースの方法は、パラメトリックボディモデルを2D観測に反復的に適合させ、正確な画像モデルのアライメントを導きますが、多くの場合、初期化に対して時間がかかり、敏感です。対照的に、深層ネットワークを使用してピクセルからモデルパラメーターを直接推定する回帰ベースの方法は、妥当な結果を提供する傾向がありますが、ピクセルの精度は高くありませんが、膨大な量の監督が必要です。この作業では、どちらのアプローチが優れているかを調査する代わりに、2つのパラダイムが強力なコラボレーションを形成できるという重要な洞察が得られます。ネットワークからの合理的な直接回帰推定により、反復最適化を初期化して、フィッティングをより速く、より正確にすることができます。同様に、反復最適化によるピクセル精度の適合は、ネットワークの強力な監視として機能します。これは、提案されたアプローチSPIN(SMPLループ内最適化)の中核です。ディープネットワークは、トレーニングループ内の2D関節にボディモデルを適合させる反復最適化ルーチンを初期化し、その後、適合した推定値を使用してネットワークを監視します。私たちのアプローチは本質的に自己改善です。より正確な最適化の適合によりネットワークの監視が向上する一方で、より良いネットワーク推定により最適化がより良いソリューションにつながるためです。 3Dグラウンドトゥルースが乏しい、または利用できないさまざまな設定でのアプローチの有効性を実証し、一貫して最先端のモデルベースのポーズ推定アプローチよりも大幅に優れています。ビデオ、結果、およびコードを含むプロジェクトWebサイトは、にあります。
Model-based human pose estimation is currently approached through two different paradigms. Optimization-based methods fit a parametric body model to 2D observations in an iterative manner, leading to accurate image-model alignments, but are often slow and sensitive to the initialization. In contrast, regression-based methods, that use a deep network to directly estimate the model parameters from pixels, tend to provide reasonable, but not pixel accurate, results while requiring huge amounts of supervision. In this work, instead of investigating which approach is better, our key insight is that the two paradigms can form a strong collaboration. A reasonable, directly regressed estimate from the network can initialize the iterative optimization making the fitting faster and more accurate. Similarly, a pixel accurate fit from iterative optimization can act as strong supervision for the network. This is the core of our proposed approach SPIN (SMPL oPtimization IN the loop). The deep network initializes an iterative optimization routine that fits the body model to 2D joints within the training loop, and the fitted estimate is subsequently used to supervise the network. Our approach is self-improving by nature, since better network estimates can lead the optimization to better solutions, while more accurate optimization fits provide better supervision for the network. We demonstrate the effectiveness of our approach in different settings, where 3D ground truth is scarce, or not available, and we consistently outperform the state-of-the-art model-based pose estimation approaches by significant margins. The project website with videos, results, and code can be found at
updated: Fri Sep 27 2019 17:56:35 GMT+0000 (UTC)
published: Fri Sep 27 2019 17:56:35 GMT+0000 (UTC)
