arXiv reaDer
テキストから画像への拡散モデルによる一貫したビデオ編集に向けて
Towards Consistent Video Editing with Text-to-Image Diffusion Models
既存の作品には、ワンショット学習方式でビデオ編集を行うための高度な Text-to-Image (TTI) 拡散モデルが含まれています。データと計算の要件が低いにもかかわらず、これらの方法では、テキスト プロンプトや時系列との一貫性が満足できない結果が生じる可能性があり、現実世界での応用が制限されます。このペーパーでは、TTI ベースのフレームワークの vIdeo 編集の一貫性を強化するために、新しい EI^2 モデルを使用して上記の問題に対処することを提案します。具体的には、時間情報を学習するために TTI モデルに新たに追加されたモジュールによって、一貫性のない問題が引き起こされていることが分析されました。これらのモジュールは特徴空間の共変量シフトを引き起こし、編集機能に悪影響を及ぼします。したがって、シフト制限時間的アテンション モジュール (STAM) と微粗フレーム アテンション モジュール (FFAM) という 2 つの古典的なモジュールを使用して上記の欠点に対処するように EI^2 を設計します。まず、理論分析を通じて、共変量シフトがレイヤー正規化と密接に関連していることを実証します。したがって、STAM は、時間的特徴の分布を保存するために、インスタンス センタリング レイヤーを代わりに採用します。さらに、STAM は、正規化されたマッピングを備えたアテンション レイヤーを使用して、分散シフトを制限しながら時間的特徴を変換します。 2 番目の部分として、STAM に新しい FFAM を組み込んでいます。FFAM は、フレーム全体の細かい空間情報から粗い空間情報を効率的に活用して、時間的一貫性をさらに強化します。広範な実験により、テキスト駆動ビデオ編集に対する提案された EI^2 モデルの優位性が実証されました。
Existing works have advanced Text-to-Image (TTI) diffusion models for video editing in a one-shot learning manner. Despite their low requirements of data and computation, these methods might produce results of unsatisfied consistency with text prompt as well as temporal sequence, limiting their applications in the real world. In this paper, we propose to address the above issues with a novel EI^2 model towards Enhancing vIdeo Editing consIstency of TTI-based frameworks. Specifically, we analyze and find that the inconsistent problem is caused by newly added modules into TTI models for learning temporal information. These modules lead to covariate shift in the feature space, which harms the editing capability. Thus, we design EI^2 to tackle the above drawbacks with two classical modules: Shift-restricted Temporal Attention Module (STAM) and Fine-coarse Frame Attention Module (FFAM). First, through theoretical analysis, we demonstrate that covariate shift is highly related to Layer Normalization, thus STAM employs a Instance Centering layer replacing it to preserve the distribution of temporal features. In addition, STAM employs an attention layer with normalized mapping to transform temporal features while constraining the variance shift. As the second part, we incorporate STAM with a novel FFAM, which efficiently leverages fine-coarse spatial information of overall frames to further enhance temporal consistency. Extensive experiments demonstrate the superiority of the proposed EI^2 model for text-driven video editing.
updated: Sat May 27 2023 10:03:36 GMT+0000 (UTC)
published: Sat May 27 2023 10:03:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト