生成 AI 革命は最近、ビデオにも拡大しています。それにもかかわらず、現在の最先端のビデオ モデルは、視覚的な品質と、生成されたコンテンツに対するユーザーの制御の点で、依然として画像モデルに遅れをとっています。この研究では、テキスト駆動のビデオ編集タスクにテキストから画像への拡散モデルの力を利用するフレームワークを紹介します。具体的には、ソース ビデオとターゲット テキスト プロンプトが与えられると、私たちの方法は、入力ビデオの空間レイアウトと動きを維持しながら、ターゲット テキストに準拠した高品質のビデオを生成します。私たちの方法は、編集されたビデオの一貫性は、拡散特徴空間の一貫性を強制することによって得られるという重要な観察に基づいています。これは、モデル内ですぐに利用できるフレーム間対応に基づいて拡散特徴を明示的に伝播することで実現します。したがって、私たちのフレームワークはトレーニングや微調整を必要とせず、既製のテキストから画像への編集方法と組み合わせて使用できます。さまざまな現実のビデオで最先端の編集結果をデモンストレーションします。ウェブページ: https://diffusion-tokenflow.github.io/
The generative AI revolution has recently expanded to videos. Nevertheless, current state-of-the-art video models are still lagging behind image models in terms of visual quality and user control over the generated content. In this work, we present a framework that harnesses the power of a text-to-image diffusion model for the task of text-driven video editing. Specifically, given a source video and a target text-prompt, our method generates a high-quality video that adheres to the target text, while preserving the spatial layout and motion of the input video. Our method is based on a key observation that consistency in the edited video can be obtained by enforcing consistency in the diffusion feature space. We achieve this by explicitly propagating diffusion features based on inter-frame correspondences, readily available in the model. Thus, our framework does not require any training or fine-tuning, and can work in conjunction with any off-the-shelf text-to-image editing method. We demonstrate state-of-the-art editing results on a variety of real-world videos. Webpage: https://diffusion-tokenflow.github.io/