arXiv reaDer
VideoComposer: モーション制御機能を備えた構成ビデオ合成
VideoComposer: Compositional Video Synthesis with Motion Controllability
ビジュアルコンテンツ制作のより高い水準としての制御性の追求により、カスタマイズ可能な画像合成は目覚ましい進歩をもたらしました。ただし、時間的ダイナミクスの大きな変動とフレーム間の時間的一貫性の要件により、制御可能なビデオ合成を実現することは依然として困難です。この作品では、構成生成のパラダイムに基づいて、ユーザーがテキスト条件、空間条件、そしてさらに重要な時間条件を使用して柔軟にビデオを構成できる VideoComposer を紹介します。具体的には、ビデオデータの特性を考慮して、圧縮ビデオからの動きベクトルを明示的な制御信号として導入し、時間ダイナミクスに関するガイダンスを提供します。さらに、シーケンシャル入力の空間的および時間的関係を効果的に組み込む統合インターフェイスとして機能する時空間条件エンコーダー (STC エンコーダー) を開発します。これにより、モデルは時間的条件をより有効に活用し、より高度な相互関係を実現できます。 -フレームの一貫性。広範な実験結果は、VideoComposer が、テキストの説明、スケッチ シーケンス、リファレンス ビデオ、さらには単なる手作りのモーションなど、さまざまな形式の合成ビデオ内の空間パターンと時間パターンを同時に制御できることを示唆しています。コードとモデルは https://videocomposer.github.io で公開されます。
The pursuit of controllability as a higher standard of visual content creation has yielded remarkable progress in customizable image synthesis. However, achieving controllable video synthesis remains challenging due to the large variation of temporal dynamics and the requirement of cross-frame temporal consistency. Based on the paradigm of compositional generation, this work presents VideoComposer that allows users to flexibly compose a video with textual conditions, spatial conditions, and more importantly temporal conditions. Specifically, considering the characteristic of video data, we introduce the motion vector from compressed videos as an explicit control signal to provide guidance regarding temporal dynamics. In addition, we develop a Spatio-Temporal Condition encoder (STC-encoder) that serves as a unified interface to effectively incorporate the spatial and temporal relations of sequential inputs, with which the model could make better use of temporal conditions and hence achieve higher inter-frame consistency. Extensive experimental results suggest that VideoComposer is able to control the spatial and temporal patterns simultaneously within a synthesized video in various forms, such as text description, sketch sequence, reference video, or even simply hand-crafted motions. The code and models will be publicly available at https://videocomposer.github.io.
updated: Tue Jun 06 2023 03:54:10 GMT+0000 (UTC)
published: Sat Jun 03 2023 06:29:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト