いくつかの画像観測から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおける挑戦的な問題のままです。最先端のアプローチでは、通常、入力として正確なカメラポーズを想定していますが、現実的な設定では取得が難しい場合があります。この論文では、ノイズの多い入力ポーズを持ついくつかの画像が与えられた場合に正確な3Dモデルを予測する学習ベースのオブジェクト再構成方法であるFvORを紹介します。私たちのアプローチの中核は、学習可能なニューラルネットワークモジュールを使用して3Dジオメトリとカメラポーズ推定を共同で改良するための高速で堅牢なマルチビュー再構成アルゴリズムです。 ShapeNetで、この問題に対する最先端のアプローチの完全なベンチマークを提供します。私たちのアプローチは、クラス最高の結果を達成します。また、最近の最適化ベースのアプローチIDRよりも2桁高速です。私たちのコードはhttps://github.com/zhenpeiyang/FvOR/でリリースされています
Reconstructing an accurate 3D object model from a few image observations remains a challenging problem in computer vision. State-of-the-art approaches typically assume accurate camera poses as input, which could be difficult to obtain in realistic settings. In this paper, we present FvOR, a learning-based object reconstruction method that predicts accurate 3D models given a few images with noisy input poses. The core of our approach is a fast and robust multi-view reconstruction algorithm to jointly refine 3D geometry and camera pose estimation using learnable neural network modules. We provide a thorough benchmark of state-of-the-art approaches for this problem on ShapeNet. Our approach achieves best-in-class results. It is also two orders of magnitude faster than the recent optimization-based approach IDR. Our code is released at https://github.com/zhenpeiyang/FvOR/