3Dオブジェクト表現を取得することは、写実的なシミュレーションを作成し、ARおよびVRアセットを収集するために重要です。ニューラルフィールドは、2D画像からシーンの連続的な体積表現を学習する上でその有効性を示していますが、弱い監視でこれらのモデルからオブジェクト表現を取得することは未解決の課題です。この論文では、シーン全体の2D画像、既知のカメラポーズ、オブジェクトの自然な言語記述、およびオブジェクトと非オブジェクトのポイントラベルのセットを指定して、シーンから対象のオブジェクトを抽出する方法であるLaTeRFを紹介します。入力画像内のオブジェクトポイント。シーンからオブジェクトを忠実に抽出するために、LaTeRFは各3Dポイントで追加の「オブジェクト性」確率を使用してNeRF定式化を拡張します。さらに、事前にトレーニングされたCLIPモデルの豊富な潜在空間を、微分可能なオブジェクトレンダラーと組み合わせて活用し、オブジェクトの遮蔽された部分を修復します。合成データセットと実世界のデータセットの両方で忠実度の高いオブジェクト抽出を示し、広範なアブレーション研究を通じて設計の選択を正当化します。
Obtaining 3D object representations is important for creating photo-realistic simulations and for collecting AR and VR assets. Neural fields have shown their effectiveness in learning a continuous volumetric representation of a scene from 2D images, but acquiring object representations from these models with weak supervision remains an open challenge. In this paper we introduce LaTeRF, a method for extracting an object of interest from a scene given 2D images of the entire scene, known camera poses, a natural language description of the object, and a set of point-labels of object and non-object points in the input images. To faithfully extract the object from the scene, LaTeRF extends the NeRF formulation with an additional `objectness' probability at each 3D point. Additionally, we leverage the rich latent space of a pre-trained CLIP model combined with our differentiable object renderer, to inpaint the occluded parts of the object. We demonstrate high-fidelity object extraction on both synthetic and real-world datasets and justify our design choices through an extensive ablation study.