3D オブジェクトの再構成は、意味論的なシーンを理解するために重要です。奥行き情報、オクルージョン、ノイズが欠如しているため、単眼画像から詳細な 3D 形状を直接再構成することは困難です。現在のほとんどの方法は、再構成の不確実性をまったく意識することなく、決定論的なオブジェクト モデルを生成します。私たちは、3D オブジェクト モデルの大規模なデータセットからオブジェクトの形状分布を学習し、それを潜在空間にマッピングするニューラル オブジェクト表現を活用することで、この問題に取り組みます。表現の一部として不確実性をモデル化する方法を提案し、個々の入力画像から直接不確実性を伴う潜在コードを生成する不確実性認識エンコーダーを定義します。さらに、潜在コードの不確実性を SDF 値に伝播し、メッシュコンポーネントごとに局所的な不確実性を持つ 3 次元オブジェクトメッシュを生成する方法を提案します。最後に、多視点観察からの潜在コードを融合するためのベイジアンフレームワークの下での増分融合法を提案します。合成データセットと実際のデータセットの両方でシステムを評価し、3D オブジェクトの再構成精度を向上させる不確実性ベースの融合の有効性を実証します。
3D object reconstruction is important for semantic scene understanding. It is challenging to reconstruct detailed 3D shapes from monocular images directly due to a lack of depth information, occlusion and noise. Most current methods generate deterministic object models without any awareness of the uncertainty of the reconstruction. We tackle this problem by leveraging a neural object representation which learns an object shape distribution from large dataset of 3d object models and maps it into a latent space. We propose a method to model uncertainty as part of the representation and define an uncertainty-aware encoder which generates latent codes with uncertainty directly from individual input images. Further, we propose a method to propagate the uncertainty in the latent code to SDF values and generate a 3d object mesh with local uncertainty for each mesh component. Finally, we propose an incremental fusion method under a Bayesian framework to fuse the latent codes from multi-view observations. We evaluate the system in both synthetic and real datasets to demonstrate the effectiveness of uncertainty-based fusion to improve 3D object reconstruction accuracy.