シーンとカメラのポーズを説明する入力テキスト プロンプトが与えられた場合に、さまざまなシーンの長期ビデオのみを合成する、テキスト駆動の永久ビュー生成の方法を紹介します。事前トレーニングされたテキストから画像へのモデルの生成能力と、事前トレーニングされた単眼奥行き予測モデルによって学習された幾何学的事前分布を組み合わせることにより、オンライン形式でそのようなビデオを生成する新しいフレームワークを紹介します。 3D の一貫性を達成するという極めて重要な課題、つまり、幾何学的に妥当なシーンを描写するビデオを合成するという極めて重要な課題に取り組むために、オンラインのテスト時間トレーニングを導入して、現在のフレームの予測深度マップが合成されたシーンと幾何学的に一致するように促します。深度マップは、シーンの統一メッシュ表現を構築するために使用され、ビデオ生成プロセスに沿って徐々に構築されます。限られた領域にのみ適用できる以前の作品とは対照的に、私たちの方法は、宇宙船、洞窟、または氷の城内のウォークスルーなど、多様なシーンを生成します。
We present a method for text-driven perpetual view generation -- synthesizing long-term videos of various scenes solely, given an input text prompt describing the scene and camera poses. We introduce a novel framework that generates such videos in an online fashion by combining the generative power of a pre-trained text-to-image model with the geometric priors learned by a pre-trained monocular depth prediction model. To tackle the pivotal challenge of achieving 3D consistency, i.e., synthesizing videos that depict geometrically-plausible scenes, we deploy an online test-time training to encourage the predicted depth map of the current frame to be geometrically consistent with the synthesized scene. The depth maps are used to construct a unified mesh representation of the scene, which is progressively constructed along the video generation process. In contrast to previous works, which are applicable only to limited domains, our method generates diverse scenes, such as walkthroughs in spaceships, caves, or ice castles.