arXiv reaDer
大規模データに対する変換ベースの敵対的ビデオ予測
Transformation-based Adversarial Video Prediction on Large-Scale Data
敵対的な生成モデリングにおける最近の進歩により、実世界のビデオの大規模で複雑なデータセットでも、高品質のビデオサンプルを生成できるモデルが生まれました。この作業では、ビデオ予測のタスクに焦点を当てます。ビデオから抽出されたフレームのシーケンスが与えられた場合、目標はもっともらしい将来のシーケンスを生成することです。まず、ディスクリミネーター分解の体系的な実証研究を実行し、以前のアプローチよりも高速な収束と高いパフォーマンスを実現するアーキテクチャを提案することにより、最先端の技術を向上させます。次に、ジェネレーター内の回帰ユニットを分析し、予測されたモーションのような特徴に従って過去の隠れた状態を変換し、それを改良して、オクルージョン解除、シーンの変更、およびその他の複雑な動作を処理する新しい回帰ユニットを提案します。この反復ユニットが以前の設計を一貫して上回っていることを示します。私たちの最終モデルは、最先端のパフォーマンスの飛躍につながり、大規模なKinetics-600データセットで69.2から25.7のテストセットフレシェビデオ距離を取得します。
Recent breakthroughs in adversarial generative modeling have led to models capable of producing video samples of high quality, even on large and complex datasets of real-world video. In this work, we focus on the task of video prediction, where given a sequence of frames extracted from a video, the goal is to generate a plausible future sequence. We first improve the state of the art by performing a systematic empirical study of discriminator decompositions and proposing an architecture that yields faster convergence and higher performance than previous approaches. We then analyze recurrent units in the generator, and propose a novel recurrent unit which transforms its past hidden state according to predicted motion-like features, and refines it to handle dis-occlusions, scene changes and other complex behavior. We show that this recurrent unit consistently outperforms previous designs. Our final model leads to a leap in the state-of-the-art performance, obtaining a test set Frechet Video Distance of 25.7, down from 69.2, on the large-scale Kinetics-600 dataset.
updated: Wed Nov 17 2021 17:56:08 GMT+0000 (UTC)
published: Mon Mar 09 2020 10:52:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト