人間の言語命令を使用してビデオを編集するためのエンドツーエンドの拡散ベースの方法、つまり InstructVid2Vid を紹介します。私たちのアプローチでは、サンプルごとの微調整や反転を行わずに、自然言語命令に基づいて入力ビデオを編集できます。提案された InstructVid2Vid モデルは、事前トレーニングされた画像生成モデルである安定拡散と条件付き 3D U-Net アーキテクチャを組み合わせて、時間依存のビデオ フレーム シーケンスを生成します。トレーニング データを取得するために、ChatGPT、BLIP、Tune-a-Video などのさまざまなモデルの知識と専門知識を組み込んで、ビデオ命令トリプレットを合成します。これは、現実世界でデータを収集するよりコスト効率の高い代替手段です。シナリオ。生成されたビデオの隣接するフレーム間の一貫性を向上させるために、トレーニング プロセス中に組み込まれるフレーム差分損失を提案します。推論中に、分類子を使用しないガイダンスをテキストビデオ入力に拡張して、生成された結果をガイドし、入力ビデオと命令の両方に関連性を高めます。実験では、InstructVid2Vid が高品質で時間的に一貫したビデオを生成し、属性編集、背景の変更、スタイル転送などのさまざまな編集を実行できることが実証されています。これらの結果は、私たちが提案した方法の多用途性と有効性を強調しています。コードは https://github.com/BrightQin/InstructVid2VidInstructVid2Vid でリリースされています。
We present an end-to-end diffusion-based method for editing videos with human language instructions, namely InstructVid2Vid. Our approach enables the editing of input videos based on natural language instructions without any per-example fine-tuning or inversion. The proposed InstructVid2Vid model combines a pretrained image generation model, Stable Diffusion, with a conditional 3D U-Net architecture to generate time-dependent sequence of video frames. To obtain the training data, we incorporate the knowledge and expertise of different models, including ChatGPT, BLIP, and Tune-a-Video, to synthesize video-instruction triplets, which is a more cost-efficient alternative to collecting data in real-world scenarios. To improve the consistency between adjacent frames of generated videos, we propose the Frame Difference Loss, which is incorporated during the training process. During inference, we extend the classifier-free guidance to text-video input to guide the generated results, making them more related to both the input video and instruction. Experiments demonstrate that InstructVid2Vid is able to generate high-quality, temporally coherent videos and perform diverse edits, including attribute editing, change of background, and style transfer. These results highlight the versatility and effectiveness of our proposed method. Code is released in https://github.com/BrightQin/InstructVid2VidInstructVid2Vid.