教師なし 3D シナリオで世界の構成力学を理解することは困難です。既存のアプローチは、時間の手がかりを効果的に利用できなかったり、シーン分解のマルチビューの一貫性を無視したりしています。この論文では、複数のエンティティ (オブジェクトなど) を含む動的シーンの時変ボリューム表現を学習するためのパイロットスタディを提供する逆ニューラル レンダリング フレームワークである DynaVol を提案します。これには主に 2 つの貢献があります。まず、時間依存の 3D グリッドを維持し、動的かつ柔軟に空間位置をさまざまなエンティティにバインドし、表現レベルでの情報の分離を促進します。第二に、私たちのアプローチは、エンドツーエンドのアーキテクチャでグリッドレベルのローカルダイナミクス、オブジェクトレベルのグローバルダイナミクス、および合成神経放射フィールドを共同で学習し、それによってオブジェクト中心のシーンボクセル化の時空間的一貫性を強化します。 DynaVol の 2 段階のトレーニング スキームを提示し、複数のオブジェクト、多様なダイナミクス、現実世界の形状とテクスチャを使用したさまざまなベンチマークでその有効性を検証します。 https://sites.google.com/view/dynavol-visual で視覚化を紹介します。
Understanding the compositional dynamics of the world in unsupervised 3D scenarios is challenging. Existing approaches either fail to make effective use of time cues or ignore the multi-view consistency of scene decomposition. In this paper, we propose DynaVol, an inverse neural rendering framework that provides a pilot study for learning time-varying volumetric representations for dynamic scenes with multiple entities (like objects). It has two main contributions. First, it maintains a time-dependent 3D grid, which dynamically and flexibly binds the spatial locations to different entities, thus encouraging the separation of information at a representational level. Second, our approach jointly learns grid-level local dynamics, object-level global dynamics, and the compositional neural radiance fields in an end-to-end architecture, thereby enhancing the spatiotemporal consistency of object-centric scene voxelization. We present a two-stage training scheme for DynaVol and validate its effectiveness on various benchmarks with multiple objects, diverse dynamics, and real-world shapes and textures. We present visualization at https://sites.google.com/view/dynavol-visual.