arXiv reaDer
ジオメトリフリービュー合成:トランスフォーマーと3Dプライアなし
Geometry-Free View Synthesis: Transformers and no 3D Priors
単一の画像から新しいビューを合成するには、幾何学的モデルが必要ですか? CNNは局所的な畳み込みに拘束されるため、幾何学的変換をモデル化するために明示的な3Dバイアスが必要です。対照的に、トランスフォーマーベースのモデルは、手動で設計された3Dバイアスなしで、まったく新しいビューを合成できることを示しています。これは、(i)ソースビューとターゲットビュー間の長距離3D対応を暗黙的に学習するためのグローバルな注意メカニズム、および(ii)単一の画像から新しいビューを予測することに固有のあいまいさをキャプチャするために必要な確率的定式化によって達成されます。比較的小さな視点の変更に制限されている以前のアプローチの制限。 3D事前確率をトランスアーキテクチャに統合するさまざまな方法を評価します。しかし、私たちの実験は、そのような幾何学的な事前分布は必要なく、トランスフォーマーは画像間の3D関係を暗黙的に学習できることを示しています。さらに、このアプローチは、可能な実現の完全な分布をカバーしながら、視覚的品質の点で最先端を上回っています。コードはhttps://git.io/JOnwnで入手できます。
Is a geometric model required to synthesize novel views from a single image? Being bound to local convolutions, CNNs need explicit 3D biases to model geometric transformations. In contrast, we demonstrate that a transformer-based model can synthesize entirely novel views without any hand-engineered 3D biases. This is achieved by (i) a global attention mechanism for implicitly learning long-range 3D correspondences between source and target views, and (ii) a probabilistic formulation necessary to capture the ambiguity inherent in predicting novel views from a single image, thereby overcoming the limitations of previous approaches that are restricted to relatively small viewpoint changes. We evaluate various ways to integrate 3D priors into a transformer architecture. However, our experiments show that no such geometric priors are required and that the transformer is capable of implicitly learning 3D relationships between images. Furthermore, this approach outperforms the state of the art in terms of visual quality while covering the full distribution of possible realizations. Code is available at https://git.io/JOnwn
updated: Mon Aug 30 2021 12:58:24 GMT+0000 (UTC)
published: Thu Apr 15 2021 17:58:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト