入力として単一のRGB画像のみを使用する新しいビュー合成の方法であるWorldsheetを紹介します。これは、シーンの3Dジオメトリの理解と、新しい視点から可視領域と遮蔽領域の両方を生成するためのテクスチャマッピングを必要とするため、難しい問題です。私たちの主な洞察は、学習した中間深度と一致する平面メッシュシートを入力画像にシュリンクラップするだけで、任意に大きな視点の変化を伴うフォトリアリスティックな見えないビューを生成するのに十分な基礎となるジオメトリをキャプチャすることです。これを操作可能にするために、ラップされたメッシュシートにテクスチャを付けることができる新しい微分可能なテクスチャサンプラーを提案します。次に、微分可能なレンダリングを介してターゲット画像に変換されます。私たちのアプローチは、カテゴリにとらわれず、3D監視を使用せずにエンドツーエンドでトレーニング可能であり、テスト時に単一の画像を必要とします。 Worldsheetは、複数のデータセットにわたる単一画像ビューの合成において、以前の最先端の方法を一貫して上回っています。さらに、この単純なアイデアは、さまざまな高解像度の野生の画像をナビゲート可能な3Dポップアップに変換することで、驚くほどうまく斬新なビューをキャプチャします。 https://worldsheet.github.ioのビデオ結果とコード
We present Worldsheet, a method for novel view synthesis using just a single RGB image as input. This is a challenging problem as it requires an understanding of the 3D geometry of the scene as well as texture mapping to generate both visible and occluded regions from new view-points. Our main insight is that simply shrink-wrapping a planar mesh sheet onto the input image, consistent with the learned intermediate depth, captures underlying geometry sufficient enough to generate photorealistic unseen views with arbitrarily large view-point changes. To operationalize this, we propose a novel differentiable texture sampler that allows our wrapped mesh sheet to be textured; which is then transformed into a target image via differentiable rendering. Our approach is category-agnostic, end-to-end trainable without using any 3D supervision and requires a single image at test time. Worldsheet consistently outperforms prior state-of-the-art methods on single-image view synthesis across several datasets. Furthermore, this simple idea captures novel views surprisingly well on a wide range of high resolution in-the-wild images in converting them into a navigable 3D pop-up. Video results and code at https://worldsheet.github.io