arXiv reaDer
VQVAEを使用したビデオの予測
Predicting Video with VQVAE
近年、ビデオ予測のタスク-過去のビデオフレームを与えられた将来のビデオを予測する-は、研究コミュニティで注目を集めています。この論文では、ベクトル量子化変分オートエンコーダ(VQ-VAE)を使用したこの問題への新しいアプローチを提案します。 VQ-VAEを使用して、高解像度ビデオをマルチスケールの離散潜在変数の階層セットに圧縮します。ピクセルと比較して、この圧縮された潜在空間は次元を劇的に減らし、スケーラブルな自己回帰生成モデルを適用してビデオを予測することを可能にします。高度に制約されたデータセットを主に強調してきた以前の作業とは対照的に、Kinetics-600などの非常に多様で大規模なデータセットに焦点を当てています。制約のないビデオでは、256x256の高解像度で、これまでのどの方法よりも高い解像度でビデオを予測します。さらに、クラウドソーシングによる人間の評価を通じて、以前の作業に対するアプローチを検証します。
In recent years, the task of video prediction-forecasting future video given past video frames-has attracted attention in the research community. In this paper we propose a novel approach to this problem with Vector Quantized Variational AutoEncoders (VQ-VAE). With VQ-VAE we compress high-resolution videos into a hierarchical set of multi-scale discrete latent variables. Compared to pixels, this compressed latent space has dramatically reduced dimensionality, allowing us to apply scalable autoregressive generative models to predict video. In contrast to previous work that has largely emphasized highly constrained datasets, we focus on very diverse, large-scale datasets such as Kinetics-600. We predict video at a higher resolution on unconstrained videos, 256x256, than any other previous method to our knowledge. We further validate our approach against prior work via a crowdsourced human evaluation.
updated: Tue Mar 02 2021 18:59:10 GMT+0000 (UTC)
published: Tue Mar 02 2021 18:59:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト