スパースマルチビューRGBビデオから制御可能な暗黙の3D人間モデルを再構築するための新しい方法を提案します。私たちの方法は、メッシュ表面ポイント上のニューラルシーン表現と人体メッシュの表面からの符号付き距離を定義します。表面に位置合わせされたニューラルシーン表現を学習するために、3D空間内のポイントがメッシュ上の最も近いサーフェスポイントにマッピングされるときに発生する識別不能性の問題を特定します。この問題に対処するために、修正された頂点法線を使用した重心補間を使用して、メッシュサーフェスにポイントを投影することを提案します。 ZJU-MoCapおよびHuman3.6Mデータセットを使用した実験は、私たちのアプローチが既存の方法よりも新しいビューと新しいポーズの合成でより高い品質を達成することを示しています。また、私たちの方法が体型や衣服の制御を簡単にサポートすることを示します。プロジェクトページ:https://pfnet-research.github.io/surface-aligned-nerf/。
We propose a new method for reconstructing controllable implicit 3D human models from sparse multi-view RGB videos. Our method defines the neural scene representation on the mesh surface points and signed distances from the surface of a human body mesh. We identify an indistinguishability issue that arises when a point in 3D space is mapped to its nearest surface point on a mesh for learning surface-aligned neural scene representation. To address this issue, we propose projecting a point onto a mesh surface using a barycentric interpolation with modified vertex normals. Experiments with the ZJU-MoCap and Human3.6M datasets show that our approach achieves a higher quality in a novel-view and novel-pose synthesis than existing methods. We also demonstrate that our method easily supports the control of body shape and clothes. Project page: https://pfnet-research.github.io/surface-aligned-nerf/.