新しいビューの統合は長年の問題です。この作業では、シーンまたはオブジェクトをまばらにカバーするコンテキストビューがいくつかしか与えられないという問題の変形を検討します。目標は、事前に学習する必要があるシーン内の新しい視点を予測することです。現在の最先端技術はニューラルラディアンスフィールド(NeRF)に基づいており、印象的な結果を達成する一方で、各画像のディープニューラルネットワークを介して数千の3Dポイントサンプルを評価する必要があるため、この方法は長いトレーニング時間に悩まされます。ニューラルネットワークのシングルパスで、複数のコンテキストビューとクエリポーズを新しい画像にマッピングする2Dのみの方法を提案します。私たちのモデルは、コードブックとトランスフォーマーモデルで構成される2段階のアーキテクチャを使用しています。コードブックは、個々の画像をより小さな潜在空間に埋め込むために使用され、トランスフォーマーは、このよりコンパクトな空間でビュー合成タスクを解決します。モデルを効率的にトレーニングするために、同じモデルをニューラルレンダリングだけでなく、カメラのポーズ推定にも使用できる新しい分岐注意メカニズムを導入します。実世界のシーンでの実験結果は、私たちのアプローチが3Dで推論せずに、NeRFベースの方法と比較して競争力があり、トレーニングが高速であることを示しています。
Novel view synthesis is a long-standing problem. In this work, we consider a variant of the problem where we are given only a few context views sparsely covering a scene or an object. The goal is to predict novel viewpoints in the scene, which requires learning priors. The current state of the art is based on Neural Radiance Fields (NeRFs), and while achieving impressive results, the methods suffer from long training times as they require evaluating thousands of 3D point samples via a deep neural network for each image. We propose a 2D-only method that maps multiple context views and a query pose to a new image in a single pass of a neural network. Our model uses a two-stage architecture consisting of a codebook and a transformer model. The codebook is used to embed individual images into a smaller latent space, and the transformer solves the view synthesis task in this more compact space. To train our model efficiently, we introduce a novel branching attention mechanism that allows us to use the same model not only for neural rendering but also for camera pose estimation. Experimental results on real-world scenes show that our approach is competitive compared to NeRF-based methods while not reasoning in 3D, and it is faster to train.