自然画像の生成モデルは、スケールの強力な活用により、忠実度の高いサンプルに向かって進歩しています。複雑なKinetics-600データセットでトレーニングされた大規模な生成的敵対ネットワークが、以前の作業よりもかなり高い複雑さと忠実度のビデオサンプルを生成できることを示すことで、この成功をビデオモデリングの分野に持ち込もうとします。提案されたモデルであるデュアルビデオディスクリミネーターGAN(DVD-GAN)は、ディスクリミネーターの計算効率の良い分解を活用して、より長く高解像度のビデオにスケーリングします。ビデオ合成とビデオ予測の関連タスクを評価し、Kinetics-600の予測のための最新のFr \ 'echet Inception Distanceと、合成のための最新のInception Scoreを達成します。 UCF-101データセット、およびKinetics-600での合成の強力なベースラインの確立。
Generative models of natural images have progressed towards high fidelity samples by the strong leveraging of scale. We attempt to carry this success to the field of video modeling by showing that large Generative Adversarial Networks trained on the complex Kinetics-600 dataset are able to produce video samples of substantially higher complexity and fidelity than previous work. Our proposed model, Dual Video Discriminator GAN (DVD-GAN), scales to longer and higher resolution videos by leveraging a computationally efficient decomposition of its discriminator. We evaluate on the related tasks of video synthesis and video prediction, and achieve new state-of-the-art Fr\'echet Inception Distance for prediction for Kinetics-600, as well as state-of-the-art Inception Score for synthesis on the UCF-101 dataset, alongside establishing a strong baseline for synthesis on Kinetics-600.