CCVS: Context-aware Controllable Video Synthesis
このプレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師あり学習アプローチを紹介します。空間分解能とリアリズムを向上させるためのいくつかの新しい重要な要素があります。時間的連続性のためのコンテキスト情報と微調整のための補助情報に基づいて合成プロセスを調整します。予測モデルは、予測用のオートエンコーダーの潜在空間、およびコンテキスト情報を更新するための画像空間で二重に自己回帰します。これは、学習可能なオプティカルフローモジュールを通じて時空間の一貫性を強制するためにも使用されます。外観および時間領域でのオートエンコーダの敵対的トレーニングは、その出力のリアリズムをさらに改善するために使用されます。潜在空間の将来のフレームの予測を担当するエンコーダーとトランスフォーマーの間に挿入された量子化器(およびトランスフォーマーとデコーダーの間に挿入されたその逆)は、合成プロセスを制御するためのマルチモーダル補助情報を処理するためのシンプルなメカニズムを提供することにより、さらに柔軟性を追加します(例: 、いくつかのサンプルフレーム、オーディオトラック、画像空間の軌跡)、複数の予測を可能にすることにより、将来の本質的に不確実な性質を考慮に入れます。提案されたアプローチの実装による実験は、複数のタスクと標準ベンチマークで非常に優れた定性的および定量的結果をもたらします。
This presentation introduces a self-supervised learning approach to the synthesis of new video clips from old ones, with several new key elements for improved spatial resolution and realism: It conditions the synthesis process on contextual information for temporal continuity and ancillary information for fine control. The prediction model is doubly autoregressive, in the latent space of an autoencoder for forecasting, and in image space for updating contextual information, which is also used to enforce spatio-temporal consistency through a learnable optical flow module. Adversarial training of the autoencoder in the appearance and temporal domains is used to further improve the realism of its output. A quantizer inserted between the encoder and the transformer in charge of forecasting future frames in latent space (and its inverse inserted between the transformer and the decoder) adds even more flexibility by affording simple mechanisms for handling multimodal ancillary information for controlling the synthesis process (eg, a few sample frames, an audio track, a trajectory in image space) and taking into account the intrinsically uncertain nature of the future by allowing multiple predictions. Experiments with an implementation of the proposed approach give very good qualitative and quantitative results on multiple tasks and standard benchmarks.
