ビデオの統計的な複雑さ、高度な固有の確率、および膨大な量のデータにより、自然なビデオを生成することは依然として困難な作業です。最先端のビデオ生成モデルは、しばしば複雑で、通常はビデオ固有のニューラルネットワークアーキテクチャ、潜在変数モデル、敵対的トレーニング、その他のさまざまな方法を組み合わせることで、これらの問題に対処しようとします。多くの場合、複雑さが高いにもかかわらず、これらのアプローチは、狭い領域の外で高品質のビデオの継続を生成するにはまだ不十分であり、しばしば忠実度に苦労しています。対照的に、3次元の自己注意メカニズムに基づく概念的に単純な自己回帰ビデオ生成モデルは、人気の高いベンチマークデータセットの複数のメトリックにわたって競争力のある結果を達成し、そのために忠実度とリアリズムの継続性が得られることを示します。また、カメラの動き、複雑なオブジェクトの相互作用、多様な人間の動きなどの現象を示すYouTubeビデオで構成される大規模なアクション認識データセットであるKineticsでモデルをトレーニングした結果も示します。これらの現象のモデル化は一貫して捉えにくいが、時折現実的な継続を含む結果が、速度論などの比較的複雑で大規模なデータセットのさらなる研究を促進することを願っている。
Due to the statistical complexity of video, the high degree of inherent stochasticity, and the sheer amount of data, generating natural video remains a challenging task. State-of-the-art video generation models often attempt to address these issues by combining sometimes complex, usually video-specific neural network architectures, latent variable models, adversarial training and a range of other methods. Despite their often high complexity, these approaches still fall short of generating high quality video continuations outside of narrow domains and often struggle with fidelity. In contrast, we show that conceptually simple autoregressive video generation models based on a three-dimensional self-attention mechanism achieve competitive results across multiple metrics on popular benchmark datasets, for which they produce continuations of high fidelity and realism. We also present results from training our models on Kinetics, a large scale action recognition dataset comprised of YouTube videos exhibiting phenomena such as camera movement, complex object interactions and diverse human movement. While modeling these phenomena consistently remains elusive, we hope that our results, which include occasional realistic continuations encourage further research on comparatively complex, large scale datasets such as Kinetics.