Efficient training for future video generation based on hierarchical disentangled representation of latent variables
与えられたシーケンスの将来を予測するビデオを生成することは、近年活発に研究されている領域です。ただし、本質的な問題が未解決のままです。ほとんどの方法では、トレーニングに大きな計算コストとメモリ使用量が必要です。本論文では,従来よりも少ないメモリ使用量で将来予測動画を生成する新しい手法を提案する.これは、画像生成の分野の最新の作品で生成された画像と同様に、高画質のビデオを生成するための重要な足がかりです。 (1) ビデオ フレームを潜在変数にエンコードする画像再構成、および (2) 将来のシーケンスを生成する潜在変数予測の 2 段階でメソッドをトレーニングすることにより、高効率を実現します。私たちの方法は、各フレームをその階層構造に従って分解することにより、ビデオを低次元の潜在変数に効率的に圧縮します。つまり、ビデオはバックグラウンド オブジェクトとフォアグラウンド オブジェクトに分離でき、各オブジェクトは時間変化する情報と時間に依存しない情報を独立して保持すると考えています。私たちの実験は、提案された方法が、以前の方法では処理できない複雑なデータセットであっても、将来の予測ビデオを効率的に生成できることを示しています。
Generating videos predicting the future of a given sequence has been an area of active research in recent years. However, an essential problem remains unsolved: most of the methods require large computational cost and memory usage for training. In this paper, we propose a novel method for generating future prediction videos with less memory usage than the conventional methods. This is a critical stepping stone in the path towards generating videos with high image quality, similar to that of generated images in the latest works in the field of image generation. We achieve high-efficiency by training our method in two stages: (1) image reconstruction to encode video frames into latent variables, and (2) latent variable prediction to generate the future sequence. Our method achieves an efficient compression of video into low-dimensional latent variables by decomposing each frame according to its hierarchical structure. That is, we consider that video can be separated into background and foreground objects, and that each object holds time-varying and time-independent information independently. Our experiments show that the proposed method can efficiently generate future prediction videos, even for complex datasets that cannot be handled by previous methods.
updated: Tue Jun 08 2021 15:22:18 GMT+0000 (UTC)
published: Mon Jun 07 2021 10:43:23 GMT+0000 (UTC)
