arXiv reaDer
3D畳み込み変分リカレントネットワークを使用したビデオ予測のための対数尤度正則化KLダイバージェンス
A Log-likelihood Regularized KL Divergence for Video Prediction with A 3D Convolutional Variational Recurrent Network
潜在変数モデルの使用は、シーケンス全体の確率分布をモデル化するための強力なツールであることが示されています。この論文では、ビデオフレーム予測のタスクのために2つの方法でリカレントネットワークを拡張する新しい変分モデルを紹介します。まず、将来のフレーム予測のための反復モデルを含むすべてのモジュール内に3D畳み込みを導入し、各タイムステップでビデオフレームのシーケンスを入力および出力します。これにより、変分反復モデル内の時空間情報をより有効に活用できるようになり、高品質の予測を生成できるようになります。次に、変分モデルで一般的に使用されるKL発散に加えて最尤推定を導入することにより、変分モデルの潜在損失を強化します。この単純な拡張は、変分オートエンコーダ損失関数のより強力な正則化として機能し、より良い結果と一般化可能性を得ることができます。実験によると、私たちのモデルは、いくつかのベンチマークで既存のビデオ予測方法よりも優れていますが、必要なパラメーターは少なくなっています。
The use of latent variable models has shown to be a powerful tool for modeling probability distributions over sequences. In this paper, we introduce a new variational model that extends the recurrent network in two ways for the task of video frame prediction. First, we introduce 3D convolutions inside all modules including the recurrent model for future frame prediction, inputting and outputting a sequence of video frames at each timestep. This enables us to better exploit spatiotemporal information inside the variational recurrent model, allowing us to generate high-quality predictions. Second, we enhance the latent loss of the variational model by introducing a maximum likelihood estimate in addition to the KL divergence that is commonly used in variational models. This simple extension acts as a stronger regularizer in the variational autoencoder loss function and lets us obtain better results and generalizability. Experiments show that our model outperforms existing video prediction methods on several benchmarks while requiring fewer parameters.
updated: Fri Dec 11 2020 05:05:31 GMT+0000 (UTC)
published: Fri Dec 11 2020 05:05:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト