この論文では、忠実度の高い多関節の 3D 人間の足モデルを紹介します。モデルは、形状、テクスチャ、および関節ポーズに関して、絡み合っていない潜在コードによってパラメーター化されます。忠実度の高いモデルは通常、3D キーポイントの対応や事前登録などの強力な監督下で作成されますが、アノテーションがほとんどまたはまったくないという困難なケースに焦点を当てています。この目的のために、以下の貢献を行います。(i) FIND という名前の足の暗黙的ニューラル変形フィールド モデルを開発します。これは、任意の解像度で明示的なメッシュを調整することができます。つまり、低電力デバイスまたは高電力デバイス用です。 (ii)ポーズカテゴリなどのラベルが提供されるにつれて、徐々により良いもつれを解きながら、弱い監督のさまざまなモードでモデルをトレーニングするためのアプローチ。 (iii)モデルを2D画像に適合させるための新しい教師なし部分ベースの損失。これは、従来の測光またはシルエット損失よりも優れています。 (iv) 最後に、高解像度の 3D 人間の足のスキャンの新しいデータセット、Foot3D をリリースします。このデータセットでは、形状の品質とパーツの対応に関して、モデルが同じデータでトレーニングされた強力な PCA 実装よりも優れていること、および新しい教師なしのパーツベースの損失が画像の推論を改善することを示します。
In this paper we present a high fidelity and articulated 3D human foot model. The model is parameterised by a disentangled latent code in terms of shape, texture and articulated pose. While high fidelity models are typically created with strong supervision such as 3D keypoint correspondences or pre-registration, we focus on the difficult case of little to no annotation. To this end, we make the following contributions: (i) we develop a Foot Implicit Neural Deformation field model, named FIND, capable of tailoring explicit meshes at any resolution i.e. for low or high powered devices; (ii) an approach for training our model in various modes of weak supervision with progressively better disentanglement as more labels, such as pose categories, are provided; (iii) a novel unsupervised part-based loss for fitting our model to 2D images which is better than traditional photometric or silhouette losses; (iv) finally, we release a new dataset of high resolution 3D human foot scans, Foot3D. On this dataset, we show our model outperforms a strong PCA implementation trained on the same data in terms of shape quality and part correspondences, and that our novel unsupervised part-based loss improves inference on images.