大規模な事前トレーニング済みトランスフォーマーは、テキスト(GPT-3)およびテキストからイメージ(DALL-EおよびCogView)の生成においてマイルストーンを生み出しました。ビデオ生成へのその適用は、依然として多くの課題に直面しています。潜在的な莫大な計算コストにより、ゼロからのトレーニングは手ごろな価格ではありません。テキストビデオデータセットの不足と弱い関連性は、モデルが複雑な動きのセマンティクスを理解するのを妨げます。この作業では、事前にトレーニングされたテキストから画像へのモデルであるCogView2を継承することによってトレーニングされた9BパラメータートランスフォーマーCogVideoを紹介します。また、テキストクリップとビデオクリップの位置合わせを改善するために、マルチフレームレートの階層型トレーニング戦略を提案します。 (おそらく)最初のオープンソースの大規模な事前トレーニング済みのテキストからビデオへのモデルとして、CogVideoは、機械および人間の評価において、公開されているすべてのモデルを大幅に上回っています。
Large-scale pretrained transformers have created milestones in text (GPT-3) and text-to-image (DALL-E and CogView) generation. Its application to video generation is still facing many challenges: The potential huge computation cost makes the training from scratch unaffordable; The scarcity and weak relevance of text-video datasets hinder the model understanding complex movement semantics. In this work, we present 9B-parameter transformer CogVideo, trained by inheriting a pretrained text-to-image model, CogView2. We also propose multi-frame-rate hierarchical training strategy to better align text and video clips. As (probably) the first open-source large-scale pretrained text-to-video model, CogVideo outperforms all publicly available models at a large margin in machine and human evaluations.