ビデオ生成における一時的な不一致の2つの病理学的ケースを特定します:ビデオのフリーズとビデオのループ。時間的多様性をより定量化するために、効果的で実装しやすく、データに依存せず、解釈可能な補完的なメトリックのクラスを提案します。さらに、現在の最先端モデルは固定長のビデオサンプルでトレーニングされているため、長期的なモデリングが禁止されています。これに対処するために、ビデオ生成の問題をマルコフ決定プロセス(MDP)として再定式化します。基本的な考え方は、固定長の制限を克服し、一時的なアーティファクトの存在を軽減するために、無限の予測期間を持つ確率的プロセスとしてモーションを表すことです。この定式化は、最新のMoCoGANフレームワークに簡単に統合できることを示しています。 Human ActionsおよびUCF-101データセットに関する実験では、MDPベースのモデルの方がメモリ効率が高く、新しいメトリックと確立されたメトリックの両方でビデオ品質が向上することが実証されています。
We identify two pathological cases of temporal inconsistencies in video generation: video freezing and video looping. To better quantify the temporal diversity, we propose a class of complementary metrics that are effective, easy to implement, data agnostic, and interpretable. Further, we observe that current state-of-the-art models are trained on video samples of fixed length thereby inhibiting long-term modeling. To address this, we reformulate the problem of video generation as a Markov Decision Process (MDP). The underlying idea is to represent motion as a stochastic process with an infinite forecast horizon to overcome the fixed length limitation and to mitigate the presence of temporal artifacts. We show that our formulation is easy to integrate into the state-of-the-art MoCoGAN framework. Our experiments on the Human Actions and UCF-101 datasets demonstrate that our MDP-based model is more memory efficient and improves the video quality both in terms of the new and established metrics.