単眼RGBビデオ入力のみから動的シーンの3Dジオメトリと物理パラメータを学習する方法を提示します。基礎となるシーン ジオメトリの学習を動的な動きから分離するために、時間条件付きの変形フィールドと共に、参照フレームとして機能する時不変の符号付き距離関数 (SDF) としてシーンを表します。さらに、ニューラル フィールドとそれに対応する六面体メッシュとの間の双方向変換を設計することで、このニューラル ジオメトリ表現を微分可能な物理シミュレータに橋渡しし、サイクルの一貫性の損失を最小限に抑えてソース ビデオから物理パラメータを推定できるようにします。私たちの方法では、復元された六面体メッシュを変更し、操作をニューラル フィールド表現に伝播することで、ユーザーがソース ビデオから 3D オブジェクトをインタラクティブに編集することもできます。実験は、競合するニューラル フィールド アプローチと比較して、動的シーンの優れたメッシュおよびビデオ再構成を達成することを示しています。
We present a method for learning 3D geometry and physics parameters of a dynamic scene from only a monocular RGB video input. To decouple the learning of underlying scene geometry from dynamic motion, we represent the scene as a time-invariant signed distance function (SDF) which serves as a reference frame, along with a time-conditioned deformation field. We further bridge this neural geometry representation with a differentiable physics simulator by designing a two-way conversion between the neural field and its corresponding hexahedral mesh, enabling us to estimate physics parameters from the source video by minimizing a cycle consistency loss. Our method also allows a user to interactively edit 3D objects from the source video by modifying the recovered hexahedral mesh, and propagating the operation back to the neural field representation. Experiments show that our method achieves superior mesh and video reconstruction of dynamic scenes compared to competing Neural Field approaches, and we provide extensive examples which demonstrate its ability to extract useful 3D representations from videos captured with consumer-grade cameras.