arXiv reaDer
MeDM: 時間的対応ガイダンスによるビデオ間の変換のための画像拡散モデルの仲介
MeDM: Mediating Image Diffusion Models for Video-to-Video Translation with Temporal Correspondence Guidance
この研究では、事前にトレーニングされた画像拡散モデルを利用して、一貫した時間の流れでビデオ間の変換を行う効率的かつ効果的な手法である MeDM を紹介します。提案されたフレームワークは、通常の G バッファなどのシーン位置情報からビデオをレンダリングしたり、現実世界のシナリオでキャプチャされたビデオに対してテキストガイド付き編集を実行したりできます。明示的なオプティカル フローを使用して、生成されたフレームに物理的な制約を強制し、独立したフレームごとのスコアを仲介する実用的なコーディングを構築します。このコーディングを活用することで、生成されたビデオの時間的一貫性を維持することを、閉じた形式のソリューションによる最適化問題として組み立てることができます。安定拡散との互換性を確保するために、潜在空間拡散モデルの観測空間スコアを変更するための回避策も提案します。特に、MeDM は拡散モデルの微調整やテスト時の最適化を必要としません。この研究では、さまざまなベンチマークに関する広範な定性的、定量的、および主観的な実験を通じて、提案されたアプローチの有効性と優位性が実証されています。
This study introduces an efficient and effective method, MeDM, that utilizes pre-trained image Diffusion Models for video-to-video translation with consistent temporal flow. The proposed framework can render videos from scene position information, such as a normal G-buffer, or perform text-guided editing on videos captured in real-world scenarios. We employ explicit optical flows to construct a practical coding that enforces physical constraints on generated frames and mediates independent frame-wise scores. By leveraging this coding, maintaining temporal consistency in the generated videos can be framed as an optimization problem with a closed-form solution. To ensure compatibility with Stable Diffusion, we also suggest a workaround for modifying observed-space scores in latent-space Diffusion Models. Notably, MeDM does not require fine-tuning or test-time optimization of the Diffusion Models. Through extensive qualitative, quantitative, and subjective experiments on various benchmarks, the study demonstrates the effectiveness and superiority of the proposed approach.
updated: Sat Aug 19 2023 17:59:12 GMT+0000 (UTC)
published: Sat Aug 19 2023 17:59:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト