arXiv reaDer
動的なシーンを理解するための教師なしオブジェクト中心のボクセル化
Unsupervised Object-Centric Voxelization for Dynamic Scene Understanding
教師なし視覚環境における複数のオブジェクトの構成ダイナミクスを理解することは困難であり、既存のオブジェクト中心の表現学習方法では、シーン分解における 3D の一貫性が無視されることがよくあります。私たちは、ニューラル レンダリング フレームワークでオブジェクト中心の体積表現を学習する逆グラフィックス アプローチである DynaVol を提案します。 DynaVol は、異なるオブジェクトに属する各空間位置の確率を明示的に表す時変 3D ボクセル グリッドを維持し、正準空間変形フィールドを学習することで時間ダイナミクスと空間情報を分離します。体積特徴を最適化するために、それらを完全に微分可能なニューラル ネットワークに埋め込み、オブジェクト中心のグローバル 特徴にバインドして、シーン再構築のための合成 NeRF を駆動します。 DynaVol は、新規ビュー合成と教師なしシーン分解において既存の方法よりも優れたパフォーマンスを発揮し、オブジェクトの追加、削除、置換、軌道の変更などの動的なシーンの編集を可能にします。
Understanding the compositional dynamics of multiple objects in unsupervised visual environments is challenging, and existing object-centric representation learning methods often ignore 3D consistency in scene decomposition. We propose DynaVol, an inverse graphics approach that learns object-centric volumetric representations in a neural rendering framework. DynaVol maintains time-varying 3D voxel grids that explicitly represent the probability of each spatial location belonging to different objects, and decouple temporal dynamics and spatial information by learning a canonical-space deformation field. To optimize the volumetric features, we embed them into a fully differentiable neural network, binding them to object-centric global features and then driving a compositional NeRF for scene reconstruction. DynaVol outperforms existing methods in novel view synthesis and unsupervised scene decomposition and allows for the editing of dynamic scenes, such as adding, deleting, replacing objects, and modifying their trajectories.
updated: Tue May 30 2023 03:34:06 GMT+0000 (UTC)
published: Sun Apr 30 2023 05:29:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト