arXiv reaDer
LaTeRF:ラベルおよびテキスト駆動オブジェクトの放射輝度フィールド
LaTeRF: Label and Text Driven Object Radiance Fields
3Dオブジェクト表現を取得することは、写実的なシミュレーターを作成し、AR/VRアプリケーションのアセットを収集するために重要です。ニューラルフィールドは、2D画像からシーンの連続的な体積表現を学習する上でその有効性を示していますが、弱い監視でこれらのモデルからオブジェクト表現を取得することは未解決の課題です。この論文では、シーン全体と既知のカメラポーズの2D画像、オブジェクトの自然な言語記述、およびオブジェクトと非オブジェクトの少数のポイントラベルを指定して、シーンから対象のオブジェクトを抽出する方法であるLaTeRFを紹介します。 -入力画像内のオブジェクトポイント。シーンからオブジェクトを忠実に抽出するために、LaTeRFは各3Dポイントで追加の「オブジェクト性」確率を使用してNeRF定式化を拡張します。さらに、事前にトレーニングされたCLIPモデルの豊富な潜在空間を、微分可能なオブジェクトレンダラーと組み合わせて活用し、オブジェクトの遮蔽された部分を修復します。合成データセットと実際のデータセットの両方で忠実度の高いオブジェクト抽出を示し、広範なアブレーション研究を通じて設計の選択を正当化します。
Obtaining 3D object representations is important for creating photo-realistic simulators and collecting assets for AR/VR applications. Neural fields have shown their effectiveness in learning a continuous volumetric representation of a scene from 2D images, but acquiring object representations from these models with weak supervision remains an open challenge. In this paper we introduce LaTeRF, a method for extracting an object of interest from a scene given 2D images of the entire scene and known camera poses, a natural language description of the object, and a small number of point-labels of object and non-object points in the input images. To faithfully extract the object from the scene, LaTeRF extends the NeRF formulation with an additional `objectness' probability at each 3D point. Additionally, we leverage the rich latent space of a pre-trained CLIP model combined with our differentiable object renderer, to inpaint the occluded parts of the object. We demonstrate high-fidelity object extraction on both synthetic and real datasets and justify our design choices through an extensive ablation study.
updated: Tue Jul 05 2022 14:32:57 GMT+0000 (UTC)
published: Mon Jul 04 2022 17:07:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト