NaviNeRF: 潜在的セマンティック ナビゲーションによる NeRF ベースの 3D 表現のもつれの解消
NaviNeRF: NeRF-based 3D Representation Disentanglement by Latent Semantic Navigation
3D 表現のもつれの解消は、3D データの根底にある説明要因を特定、分解、操作することを目的としています。これは、AI が私たちの 3D 世界を根本的に理解するのに役立ちます。このタスクは現在十分に検討されておらず、大きな課題があります。(i) 3D 表現は複雑で、一般に 2D 画像よりもはるかに多くの情報が含まれています。 (ii) 多くの 3D 表現は、もつれの解消は言うまでもなく、勾配ベースの最適化にはあまり適していません。これらの課題に対処するために、NeRF を微分可能な 3D 表現として使用し、自己教師付きナビゲーションを導入して、潜在空間で解釈可能な意味方向を識別します。私たちの知る限り、NaviNeRF と呼ばれるこの新しい方法は、事前や監督なしできめ細かい 3D のもつれを解く最初の作業です。具体的には、NaviNeRF はジェネレーティブ NeRF パイプライン上に構築され、アウター ナビゲーション ブランチとインナー リファインメント ブランチを備えています。それらは補完的です。外側のナビゲーションは、グローバル ビューのセマンティックな方向を識別するためのものであり、内側の改良は、きめの細かい属性専用のものです。相乗的な損失は、2 つのブランチを調整するためにさらに工夫されています。広範な実験により、NaviNeRF には、以前の 3D 認識モデルよりも優れたきめの細かい 3D のもつれを解く能力があることが示されています。そのパフォーマンスは、セマンティックまたはジオメトリの優先順位に依存する編集指向のモデルにも匹敵します。
3D representation disentanglement aims to identify, decompose, and manipulate the underlying explanatory factors of 3D data, which helps AI fundamentally understand our 3D world. This task is currently under-explored and poses great challenges: (i) the 3D representations are complex and in general contains much more information than 2D image; (ii) many 3D representations are not well suited for gradient-based optimization, let alone disentanglement. To address these challenges, we use NeRF as a differentiable 3D representation, and introduce a self-supervised Navigation to identify interpretable semantic directions in the latent space. To our best knowledge, this novel method, dubbed NaviNeRF, is the first work to achieve fine-grained 3D disentanglement without any priors or supervisions. Specifically, NaviNeRF is built upon the generative NeRF pipeline, and equipped with an Outer Navigation Branch and an Inner Refinement Branch. They are complementary -- the outer navigation is to identify global-view semantic directions, and the inner refinement dedicates to fine-grained attributes. A synergistic loss is further devised to coordinate two branches. Extensive experiments demonstrate that NaviNeRF has a superior fine-grained 3D disentanglement ability than the previous 3D-aware models. Its performance is also comparable to editing-oriented models relying on semantic or geometry priors.
updated: Thu Mar 28 2024 09:20:19 GMT+0000 (UTC)
published: Sat Apr 22 2023 07:48:17 GMT+0000 (UTC)
