テキスト主導の画像およびビデオ拡散モデルは、最近、前例のない世代のリアリズムを達成しました。拡散モデルは画像編集にうまく適用されていますが、ビデオ編集に適用された研究はほとんどありません。一般的なビデオのテキストベースのモーションと外観編集を実行できる最初の拡散ベースの方法を紹介します。私たちのアプローチでは、ビデオ拡散モデルを使用して、推論時に、元のビデオからの低解像度の時空間情報を、ガイド テキスト プロンプトに合わせて合成された新しい高解像度の情報と組み合わせます。元のビデオの忠実度を高めるには、高解像度の情報の一部を保持する必要があるため、元のビデオのモデルを微調整する予備段階を追加して、忠実度を大幅に高めます。完全な一時的注意と一時的注意マスキングを併用して微調整する新しい混合目的によって、モーションの編集可能性を改善することを提案します。さらに、画像アニメーションの新しいフレームワークを紹介します。まず、複製や透視幾何投影などの単純な画像処理操作によって画像を粗いビデオに変換し、次に一般的なビデオ エディターを使用してアニメーション化します。さらなる応用として、主題主導のビデオ生成にこの方法を使用できます。広範な定性的および数値的実験により、この方法の優れた編集能力が示され、ベースライン方法と比較して優れたパフォーマンスが確立されます。
Text-driven image and video diffusion models have recently achieved unprecedented generation realism. While diffusion models have been successfully applied for image editing, very few works have done so for video editing. We present the first diffusion-based method that is able to perform text-based motion and appearance editing of general videos. Our approach uses a video diffusion model to combine, at inference time, the low-resolution spatio-temporal information from the original video with new, high resolution information that it synthesized to align with the guiding text prompt. As obtaining high-fidelity to the original video requires retaining some of its high-resolution information, we add a preliminary stage of finetuning the model on the original video, significantly boosting fidelity. We propose to improve motion editability by a new, mixed objective that jointly finetunes with full temporal attention and with temporal attention masking. We further introduce a new framework for image animation. We first transform the image into a coarse video by simple image processing operations such as replication and perspective geometric projections, and then use our general video editor to animate it. As a further application, we can use our method for subject-driven video generation. Extensive qualitative and numerical experiments showcase the remarkable editing ability of our method and establish its superior performance compared to baseline methods.