オブジェクトの動き、カメラの視点の変化、時間の経過とともに発生する新しいコンテンツを正確に再現するビデオ生成モデルを紹介します。既存のビデオ生成方法では、妥当なダイナミクスやオブジェクトの永続性など、実際の環境で期待される一貫性を維持しながら、時間の関数として新しいコンテンツを生成できないことがよくあります。一般的な失敗のケースは、ビデオ全体のコンテンツを指示する単一の潜在コードなど、時間的な一貫性を提供するために誘導バイアスに過度に依存しているためにコンテンツが変更されないことです。一方、長期的な一貫性がないと、生成されたビデオは異なるシーン間で非現実的に変形する可能性があります。これらの制限に対処するために、時間潜在表現を再設計し、より長いビデオでトレーニングすることによってデータから長期的な一貫性を学習することにより、時間軸に優先順位を付けます。この目的のために、2段階のトレーニング戦略を活用します。この戦略では、低解像度の長いビデオと高解像度の短いビデオを別々に使用してトレーニングします。モデルの機能を評価するために、長期的な時間的ダイナミクスに明確に焦点を当てた2つの新しいベンチマークデータセットを紹介します。
We present a video generation model that accurately reproduces object motion, changes in camera viewpoint, and new content that arises over time. Existing video generation methods often fail to produce new content as a function of time while maintaining consistencies expected in real environments, such as plausible dynamics and object persistence. A common failure case is for content to never change due to over-reliance on inductive biases to provide temporal consistency, such as a single latent code that dictates content for the entire video. On the other extreme, without long-term consistency, generated videos may morph unrealistically between different scenes. To address these limitations, we prioritize the time axis by redesigning the temporal latent representation and learning long-term consistency from data by training on longer videos. To this end, we leverage a two-phase training strategy, where we separately train using longer videos at a low resolution and shorter videos at a high resolution. To evaluate the capabilities of our model, we introduce two new benchmark datasets with explicit focus on long-term temporal dynamics.