忠実度の高い人間の 3D モデルは、ビデオから直接学習できるようになりました。通常は、テンプレート ベースの表面モデルとニューラル表現を組み合わせることによって行われます。ただし、テンプレート サーフェスを取得するには、高価なマルチビュー キャプチャ システム、レーザー スキャン、または厳密に制御された条件が必要です。以前の方法では、テンプレートの使用を避けていましたが、観測から正準空間へのコストのかかる、または不適切なマッピングに依存していました。明示的な表面モデルを必要とせず、新しいポーズに一般化できる、アニメート可能なキャラクターを再構築するためのハイブリッド ポイントベースの表現を提案します。与えられたビデオに対して、私たちの方法は、おおよその標準ジオメトリを表す 3D ポイントの明示的なセットを自動的に生成し、ポーズ依存のポイント変換を生成する多関節変形モデルを学習します。ポイントは、高頻度の神経機能の足場と、観測空間と標準空間の間を効率的にマッピングするためのアンカーの両方として機能します。確立されたベンチマークで、私たちの表現が標準的または観測空間で動作する以前の作業の制限を克服することを示します。さらに、自動ポイント抽出アプローチにより、人間と動物のキャラクターのモデルを同様に学習でき、より一般的であるにもかかわらず、リギングされたサーフェス テンプレートを使用した方法のパフォーマンスと一致します。プロジェクトサイト:https://lemonatsu.github.io/npc/
High-fidelity human 3D models can now be learned directly from videos, typically by combining a template-based surface model with neural representations. However, obtaining a template surface requires expensive multi-view capture systems, laser scans, or strictly controlled conditions. Previous methods avoid using a template but rely on a costly or ill-posed mapping from observation to canonical space. We propose a hybrid point-based representation for reconstructing animatable characters that does not require an explicit surface model, while being generalizable to novel poses. For a given video, our method automatically produces an explicit set of 3D points representing approximate canonical geometry, and learns an articulated deformation model that produces pose-dependent point transformations. The points serve both as a scaffold for high-frequency neural features and an anchor for efficiently mapping between observation and canonical space. We demonstrate on established benchmarks that our representation overcomes limitations of prior work operating in either canonical or in observation space. Moreover, our automatic point extraction approach enables learning models of human and animal characters alike, matching the performance of the methods using rigged surface templates despite being more general. Project website: https://lemonatsu.github.io/npc/