DenseRaC: Joint 3D Pose and Shape Estimation by Dense Render-and-Compare
  DenseRaC、単眼のRGB画像から3Dの人間のポーズと体の形を共同で推定するための新しいエンドツーエンドのフレームワークを提示します。 2段階のフレームワークでは、体のピクセルと表面の対応マップ(つまり、IUVマップ)をプロキシ表現として使用し、パラメーター化された人間のポーズと形状の推定を実行します。具体的には、推定IUVマップが与えられると、3D身体再構成損失を最適化し、レンダリングと比較のスキームをさらに統合して、入力とレンダリングされた出力の違い、つまり、密集した身体ランドマーク、身体部分マスク、および敵対的事前。学習を促進するために、WebクロールされたMocapシーケンス、3Dスキャン、およびアニメーションを利用した大規模な合成データセット(MOCA)をさらに構築します。生成されたデータは、多様なカメラビュー、人間の動作、および体の形状をカバーし、完全なグラウンドトゥルースとペアになっています。モデルは、ハイブリッドデータセットから3D人体を表すことを共同で学習し、ペアになっていないトレーニングデータの問題を軽減します。私たちの実験は、DenseRaCがさまざまな人間関連タスクのパブリックベンチマークで最新技術に対して優れたパフォーマンスを獲得することを示しています。
We present DenseRaC, a novel end-to-end framework for jointly estimating 3D human pose and body shape from a monocular RGB image. Our two-step framework takes the body pixel-to-surface correspondence map (i.e., IUV map) as proxy representation and then performs estimation of parameterized human pose and shape. Specifically, given an estimated IUV map, we develop a deep neural network optimizing 3D body reconstruction losses and further integrating a render-and-compare scheme to minimize differences between the input and the rendered output, i.e., dense body landmarks, body part masks, and adversarial priors. To boost learning, we further construct a large-scale synthetic dataset (MOCA) utilizing web-crawled Mocap sequences, 3D scans and animations. The generated data covers diversified camera views, human actions and body shapes, and is paired with full ground truth. Our model jointly learns to represent the 3D human body from hybrid datasets, mitigating the problem of unpaired training data. Our experiments show that DenseRaC obtains superior performance against state of the art on public benchmarks of various humanrelated tasks.
updated: Wed Oct 09 2019 17:52:02 GMT+0000 (UTC)
published: Mon Sep 30 2019 21:34:31 GMT+0000 (UTC)
