LENS: Localization enhanced by NeRF synthesis
Neural Radiance Fields(NeRF)は最近、新しいビュー合成のタスクに対してフォトリアリスティックな結果を示しました。この論文では、ロボットの再ローカリゼーション問題に新しいビュー合成を適用することを提案します。NeRFクラスのアルゴリズムによってレンダリングされた追加の合成データセットのおかげで、カメラポーズ回帰の改善を示します。無関係な場所に新しいビューが生成されないようにするために、シーンの3DジオメトリのNeRF内部表現から仮想カメラの場所を選択しました。トレーニング中のデータ拡張として合成されたリアルでジオメトリ整合性のある画像を使用して、ポーズリグレッサのローカリゼーション精度をさらに向上させました。公開時点で、私たちのアプローチは、ケンブリッジのランドマークと7シーンのデータセットのエラーを60%減らして、最先端の技術を向上させました。したがって、結果として得られる精度は、アーキテクチャの変更やドメイン適応の制約なしに、構造ベースの方法に匹敵するようになります。私たちの方法ではトレーニングデータをほぼ無限に生成できるため、公開ベンチマークでのトレーニングに使用されるデータのサイズと分布に応じて、カメラポーズ回帰の制限を調査しました。ポーズ回帰の精度は、ローカリゼーションタスクを解決するためのポーズ回帰モデルの容量ではなく、比較的小さくバイアスのかかったデータセットによってほとんど制限されると結論付けました。
Neural Radiance Fields (NeRF) have recently demonstrated photo-realistic results for the task of novel view synthesis. In this paper, we propose to apply novel view synthesis to the robot relocalization problem: we demonstrate improvement of camera pose regression thanks to an additional synthetic dataset rendered by the NeRF class of algorithm. To avoid spawning novel views in irrelevant places we selected virtual camera locations from NeRF internal representation of the 3D geometry of the scene. We further improved localization accuracy of pose regressors using synthesized realistic and geometry consistent images as data augmentation during training. At the time of publication, our approach improved state of the art with a 60% lower error on Cambridge Landmarks and 7-scenes datasets. Hence, the resulting accuracy becomes comparable to structure-based methods, without any architecture modification or domain adaptation constraints. Since our method allows almost infinite generation of training data, we investigated limitations of camera pose regression depending on size and distribution of data used for training on public benchmarks. We concluded that pose regression accuracy is mostly bounded by relatively small and biased datasets rather than capacity of the pose regression model to solve the localization task.
updated: Wed Oct 13 2021 08:15:08 GMT+0000 (UTC)
published: Wed Oct 13 2021 08:15:08 GMT+0000 (UTC)
