arXiv reaDer
INeRF:ポーズ推定のための神経放射輝度フィールドの反転
INeRF: Inverting Neural Radiance Fields for Pose Estimation
Neural RadianceField(NeRF)を「反転」することでメッシュフリーのポーズ推定を実行するフレームワークであるiNeRFを紹介します。 NeRFは、ビュー合成のタスク(現実世界のシーンまたはオブジェクトのフォトリアリスティックな斬新なビューの合成)に非常に効果的であることが示されています。この作業では、メッシュフリー、RGBのみの6DoFポーズ推定にNeRFを介した合成による分析を適用できるかどうかを調査します。画像が与えられた場合、3Dオブジェクトまたはシーンに対するカメラの平行移動と回転を見つけます。私たちの方法は、トレーニング時間またはテスト時間のいずれかで使用可能なオブジェクトメッシュモデルがないことを前提としています。最初のポーズ推定から始めて、勾配降下法を使用して、NeRFからレンダリングされたピクセルと観測された画像のピクセルの間の残余を最小限に抑えます。私たちの実験では、最初に1)iNeRFのポーズ調整中に光線をサンプリングして有益な勾配を収集する方法と2)光線のさまざまなバッチサイズが合成データセットのiNeRFにどのように影響するかを研究します。次に、LLFFデータセットからの複雑な実世界のシーンの場合、iNeRFが新しい画像のカメラポーズを推定し、これらの画像をNeRFの追加トレーニングデータとして使用することで、NeRFを改善できることを示します。最後に、iNeRFが、単一のビューから推測されたNeRFモデルを反転することにより、トレーニング中に表示されないオブジェクトインスタンスを含む、カテゴリレベルのオブジェクトポーズ推定をRGB画像で実行できることを示します。
We present iNeRF, a framework that performs mesh-free pose estimation by "inverting" a Neural RadianceField (NeRF). NeRFs have been shown to be remarkably effective for the task of view synthesis - synthesizing photorealistic novel views of real-world scenes or objects. In this work, we investigate whether we can apply analysis-by-synthesis via NeRF for mesh-free, RGB-only 6DoF pose estimation - given an image, find the translation and rotation of a camera relative to a 3D object or scene. Our method assumes that no object mesh models are available during either training or test time. Starting from an initial pose estimate, we use gradient descent to minimize the residual between pixels rendered from a NeRF and pixels in an observed image. In our experiments, we first study 1) how to sample rays during pose refinement for iNeRF to collect informative gradients and 2) how different batch sizes of rays affect iNeRF on a synthetic dataset. We then show that for complex real-world scenes from the LLFF dataset, iNeRF can improve NeRF by estimating the camera poses of novel images and using these images as additional training data for NeRF. Finally, we show iNeRF can perform category-level object pose estimation, including object instances not seen during training, with RGB images by inverting a NeRF model inferred from a single view.
updated: Tue Aug 10 2021 14:07:44 GMT+0000 (UTC)
published: Thu Dec 10 2020 18:36:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト