フィルタリング インバージョン (FINV) を提案します。これは、1 つまたはいくつかの部分ビューからレンダリング可能な 3D オブジェクト表現を予測する学習フレームワークおよび最適化プロセスです。 FINV は、オブジェクトが完全に見えていない、部分的に遮られている、または同様のビューからのみ観察されている場合にまたがって、部分的な観察からオブジェクトの新しいビューを合成するという課題に対処します。これを達成するために、FINV は 3D 生成モデルをトレーニングすることによって事前形状を学習します。推論では、新しい現実世界のオブジェクトの 1 つまたは複数のビューが与えられると、FINV は最初に、複数の初期シードから生成モデルを反転することにより、オブジェクトの潜在コードのセットを見つけます。一連の潜在コードを維持しながら、FINV は粒子フィルタリングと同様に、新しい観測を受け取るたびにそれらをフィルタリングして再サンプリングします。次に、ジェネレーターは、新しいオブジェクトに適応するために、利用可能なビューの潜在コードごとに微調整されます。生成事前確率が合成オブジェクトのみでトレーニングされている場合でも、FINV が現実世界のオブジェクト (椅子、テーブル、車など) の新しいビューを正常に合成することを示します。 sim-to-real 問題に対処する機能により、FINV は実世界のデータセットなしでオブジェクト カテゴリに使用できます。 FINV は、複数の現実世界のデータセットで最先端のパフォーマンスを実現し、オブジェクトの形状とテクスチャを部分的および疎なビューから回復し、オクルージョンに対して堅牢であり、より多くの観測でその表現を段階的に改善できます。
We propose Filtering Inversion (FINV), a learning framework and optimization process that predicts a renderable 3D object representation from one or few partial views. FINV addresses the challenge of synthesizing novel views of objects from partial observations, spanning cases where the object is not entirely in view, is partially occluded, or is only observed from similar views. To achieve this, FINV learns shape priors by training a 3D generative model. At inference, given one or more views of a novel real-world object, FINV first finds a set of latent codes for the object by inverting the generative model from multiple initial seeds. Maintaining the set of latent codes, FINV filters and resamples them after receiving each new observation, akin to particle filtering. The generator is then finetuned for each latent code on the available views in order to adapt to novel objects. We show that FINV successfully synthesizes novel views of real-world objects (e.g., chairs, tables, and cars), even if the generative prior is trained only on synthetic objects. The ability to address the sim-to-real problem allows FINV to be used for object categories without real-world datasets. FINV achieves state-of-the-art performance on multiple real-world datasets, recovers object shape and texture from partial and sparse views, is robust to occlusion, and is able to incrementally improve its representation with more observations.