新たなニューラルラディアンスフィールド(NeRF)は、コンピューターグラフィックスの有望なシーン表現であり、高品質の3D再構成と画像観察からの新しいビュー合成を可能にします。ただし、MLPやボクセルグリッドなどの基盤となるコネクショニスト表現はオブジェクト中心または構成的ではないため、NeRFで表されるシーンの編集は困難です。特に、特定の領域やオブジェクトを選択的に編集することは困難でした。この作業では、NeRFのセマンティックシーン分解の問題に取り組み、表現された3Dシーンのクエリベースのローカル編集を可能にします。 CLIP-LSegやDINOなどの既製の自己監視2D画像特徴抽出器の知識を、放射輝度フィールドと並行して最適化された3D特徴フィールドに抽出することを提案します。テキスト、画像パッチ、ポイントアンドクリック選択などのさまざまなモダリティのユーザー指定のクエリが与えられると、3Dフィーチャフィールドは、再トレーニングを必要とせずに3D空間を意味的に分解し、ラディアンスフィールド。私たちの実験は、蒸留された特徴フィールド(DFF)が2Dビジョンと言語基盤モデルの最近の進歩を3Dシーン表現に転送し、説得力のある3Dセグメンテーションと新しいニューラルグラフィック表現の選択的編集を可能にすることを検証します。
Emerging neural radiance fields (NeRF) are a promising scene representation for computer graphics, enabling high-quality 3D reconstruction and novel view synthesis from image observations. However, editing a scene represented by a NeRF is challenging, as the underlying connectionist representations such as MLPs or voxel grids are not object-centric or compositional. In particular, it has been difficult to selectively edit specific regions or objects. In this work, we tackle the problem of semantic scene decomposition of NeRFs to enable query-based local editing of the represented 3D scenes. We propose to distill the knowledge of off-the-shelf, self-supervised 2D image feature extractors such as CLIP-LSeg or DINO into a 3D feature field optimized in parallel to the radiance field. Given a user-specified query of various modalities such as text, an image patch, or a point-and-click selection, 3D feature fields semantically decompose 3D space without the need for re-training and enable us to semantically select and edit regions in the radiance field. Our experiments validate that the distilled feature fields (DFFs) can transfer recent progress in 2D vision and language foundation models to 3D scene representations, enabling convincing 3D segmentation and selective editing of emerging neural graphics representations.