AutoRFを紹介します。これは、トレーニングセット内の各オブジェクトが単一のビューのみで観察されるニューラル3Dオブジェクト表現を学習するための新しいアプローチです。この設定は、同じオブジェクトの複数のビューを活用する、トレーニング中に明示的な事前情報を使用する、またはピクセル単位の完全な注釈を必要とする既存の作品の大部分とはまったく対照的です。この困難な設定に対処するために、埋め込みが形状、外観、およびポーズを記述および解きほぐす、正規化されたオブジェクト中心の表現を学習することを提案します。各エンコーディングは、対象のオブジェクトに関する十分に一般化可能なコンパクトな情報を提供します。この情報は、シングルショットで新しいターゲットビューにデコードされるため、新しいビューの合成が可能になります。表現を入力画像にしっかりと適合させることにより、テスト時に形状と外観のコードを最適化することにより、再構成の品質をさらに向上させます。一連の実験で、nuScenes、KITTI、Mapillary Metropolisなどの挑戦的な現実世界のストリートシーンのさまざまなデータセット間でさえ、私たちの方法が目に見えないオブジェクトにうまく一般化することを示します。
We introduce AutoRF - a new approach for learning neural 3D object representations where each object in the training set is observed by only a single view. This setting is in stark contrast to the majority of existing works that leverage multiple views of the same object, employ explicit priors during training, or require pixel-perfect annotations. To address this challenging setting, we propose to learn a normalized, object-centric representation whose embedding describes and disentangles shape, appearance, and pose. Each encoding provides well-generalizable, compact information about the object of interest, which is decoded in a single-shot into a new target view, thus enabling novel view synthesis. We further improve the reconstruction quality by optimizing shape and appearance codes at test time by fitting the representation tightly to the input image. In a series of experiments, we show that our method generalizes well to unseen objects, even across different datasets of challenging real-world street scenes such as nuScenes, KITTI, and Mapillary Metropolis.