このホワイト ペーパーでは、エンド ツー エンドのフレームワーク内で最適化ベースと回帰ベースの両方の方法の長所を活用する、3D 人間の姿勢と形状の推定のための逆運動学的最適化レイヤー (IKOL) について説明します。 IKOL には、画像の 3D キーポイントと体の形状から身体部分の相対的な回転への暗黙的なマッピングを確立する非凸最適化が含まれます。 3D キーポイントとボディ シェイプが入力であり、ボディ パーツの相対的な回転がソリューションです。ただし、この手順は暗黙的であり、微分可能にするのは困難です。したがって、この問題を克服するために、IKOL を区別するためのガウス-ニュートン微分 (GN-Diff) 手順を設計しました。 GN-Diff は、非凸目的関数を反復的に線形化し、閉じた形式の解でガウス ニュートン方向を取得します。次に、自動微分手順を直接適用して、エンドツーエンドのトレーニング用のヤコビ行列を生成します。特に、GN-Diff 手順は、時間のかかる暗黙の微分手順に依存しないため、高速に動作します。ツイストの回転と形状のパラメーターはニューラル ネットワークから学習されるため、IKOL の計算オーバーヘッドは、既存のほとんどの最適化ベースの方法よりもはるかに低くなります。さらに、既存の回帰ベースの方法と比較して、IKOL はより正確なメッシュと画像の対応を提供します。これは、キーポイント間の距離を繰り返し短縮し、ポーズ構造の信頼性を高めるためです。広範な実験により、提案されたフレームワークが、幅広い 3D 人間の姿勢および形状推定方法よりも優れていることが実証されています。
This paper presents an inverse kinematic optimization layer (IKOL) for 3D human pose and shape estimation that leverages the strength of both optimization- and regression-based methods within an end-to-end framework. IKOL involves a nonconvex optimization that establishes an implicit mapping from an image's 3D keypoints and body shapes to the relative body-part rotations. The 3D keypoints and the body shapes are the inputs and the relative body-part rotations are the solutions. However, this procedure is implicit and hard to make differentiable. So, to overcome this issue, we designed a Gauss-Newton differentiation (GN-Diff) procedure to differentiate IKOL. GN-Diff iteratively linearizes the nonconvex objective function to obtain Gauss-Newton directions with closed form solutions. Then, an automatic differentiation procedure is directly applied to generate a Jacobian matrix for end-to-end training. Notably, the GN-Diff procedure works fast because it does not rely on a time-consuming implicit differentiation procedure. The twist rotation and shape parameters are learned from the neural networks and, as a result, IKOL has a much lower computational overhead than most existing optimization-based methods. Additionally, compared to existing regression-based methods, IKOL provides a more accurate mesh-image correspondence. This is because it iteratively reduces the distance between the keypoints and also enhances the reliability of the pose structures. Extensive experiments demonstrate the superiority of our proposed framework over a wide range of 3D human pose and shape estimation methods.