この研究では、拡散ベースのビデオ生成におけるトランスの使用の先駆けとなるビデオ拡散トランス (VDT) を紹介します。モジュール化された時間的および空間的注意モジュールを備えたトランスフォーマー ブロックを特徴としており、各コンポーネントの個別の最適化を可能にし、トランスフォーマーから継承された豊富な時空間表現を活用できます。 VDT にはいくつかの魅力的な利点があります。 1) 時間的な依存関係を捉えることに優れており、時間的に一貫したビデオ フレームを生成し、時間の経過に伴う 3D オブジェクトのダイナミクスをシミュレートすることもできます。 2) トークン空間での単純な連結を通じて柔軟な条件付け情報を可能にし、ビデオ生成タスクと予測タスクを効果的に統合します。 3) モジュール化された設計により、時空間的に分離されたトレーニング戦略が容易になり、効率の向上につながります。自動運転、人間の行動、物理ベースのシミュレーションなど、さまざまなシナリオにおける VDT の有効性を実証するために、ビデオ生成、予測、およびダイナミクス モデリング (物理ベースの QA) タスクに関する広範な実験が実施されています。私たちは、正確な時間依存性の捕捉、コンディショニング情報の処理、効率的なトレーニングの達成におけるトランスベースのビデオ拡散の機能に関する研究が、将来の研究に役立ち、この分野を前進させることを願っています。コードとモデルは https://github.com/RERV/VDT で入手できます。
This work introduces Video Diffusion Transformer (VDT), which pioneers the use of transformers in diffusion-based video generation. It features transformer blocks with modularized temporal and spatial attention modules, allowing separate optimization of each component and leveraging the rich spatial-temporal representation inherited from transformers. VDT offers several appealing benefits. 1) It excels at capturing temporal dependencies to produce temporally consistent video frames and even simulate the dynamics of 3D objects over time. 2) It enables flexible conditioning information through simple concatenation in the token space, effectively unifying video generation and prediction tasks. 3) Its modularized design facilitates a spatial-temporal decoupled training strategy, leading to improved efficiency. Extensive experiments on video generation, prediction, and dynamics modeling (i.e., physics-based QA) tasks have been conducted to demonstrate the effectiveness of VDT in various scenarios, including autonomous driving, human action, and physics-based simulation. We hope our study on the capabilities of transformer-based video diffusion in capturing accurate temporal dependencies, handling conditioning information, and achieving efficient training will benefit future research and advance the field. Codes and models are available at https://github.com/RERV/VDT.