Stochastic Image-to-Video Synthesis using cINNs
ビデオの理解には、静的なシーンのコンテンツとそのダイナミクスの間の特徴的な相互作用を学習するモデルが必要です。画像が与えられると、モデルは描写されたシーンの将来の進行を予測できなければならず、逆に、ビデオはその観点から説明されるべきです。静止画像コンテンツと、最初のフレームに存在しない残りのすべての特性。これは当然、ビデオドメインと静的コンテンツ、および残りの情報の間の全単射マッピングを示唆しています。一般的な確率的画像からビデオへの合成とは対照的に、このようなモデルは、最初の画像を進行させる任意のビデオを生成するだけではありません。この画像を考えると、サンプリング時に確率的な結果を伴う残差ベクトルとビデオ間の1対1のマッピングを提供します。このアプローチは、静的およびその他のビデオ特性を個別にモデル化することでビデオを説明できる条件付き可逆ニューラルネットワーク(cINN)を使用して自然に実装され、制御されたビデオ合成の基礎を築きます。 4つの多様なビデオデータセットでの実験は、合成された結果の品質と多様性の両方の観点から、私たちのアプローチの有効性を示しています。私たちのプロジェクトページはで入手できます。
Video understanding calls for a model to learn the characteristic interplay between static scene content and its dynamics: Given an image, the model must be able to predict a future progression of the portrayed scene and, conversely, a video should be explained in terms of its static image content and all the remaining characteristics not present in the initial frame. This naturally suggests a bijective mapping between the video domain and the static content as well as residual information. In contrast to common stochastic image-to-video synthesis, such a model does not merely generate arbitrary videos progressing the initial image. Given this image, it rather provides a one-to-one mapping between the residual vectors and the video with stochastic outcomes when sampling. The approach is naturally implemented using a conditional invertible neural network (cINN) that can explain videos by independently modelling static and other video characteristics, thus laying the basis for controlled video synthesis. Experiments on four diverse video datasets demonstrate the effectiveness of our approach in terms of both the quality and diversity of the synthesized results. Our project page is available at
updated: Mon May 10 2021 17:59:09 GMT+0000 (UTC)
published: Mon May 10 2021 17:59:09 GMT+0000 (UTC)
