arXiv reaDer
大規模な確率的リカレントニューラルネットワークによる高忠実度ビデオ予測
High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks
 フレームの経時変化のダイナミクスを構成するさまざまな変動要因があるため、将来のビデオフレームの予測は非常に困難です。以前に提案されたソリューションでは、セグメンテーションマスク、オプティカルフロー、前景と背景の分離など、高度に特化した計算を使用したネットワークアーキテクチャ内の複雑な誘導バイアスが必要です。この作業では、そのような手作りのアーキテクチャが必要かどうかを疑問視し、代わりに別のアプローチを提案します。ネットワーク容量を最大化しながら、ビデオ予測の最小誘導バイアスを見つけることです。最初の大規模な実証研究を実行してこの質問を調査し、3つの異なるデータセットで大規模モデルを学習することにより、最先端のパフォーマンスを実証します。1つはオブジェクトインタラクションのモデリング、1つは人間の動きのモデリング、1つは車の運転のモデリング。
Predicting future video frames is extremely challenging, as there are many factors of variation that make up the dynamics of how frames change through time. Previously proposed solutions require complex inductive biases inside network architectures with highly specialized computation, including segmentation masks, optical flow, and foreground and background separation. In this work, we question if such handcrafted architectures are necessary and instead propose a different approach: finding minimal inductive bias for video prediction while maximizing network capacity. We investigate this question by performing the first large-scale empirical study and demonstrate state-of-the-art performance by learning large models on three different datasets: one for modeling object interactions, one for modeling human motion, and one for modeling car driving.
updated: Tue Nov 05 2019 07:44:57 GMT+0000 (UTC)
published: Tue Nov 05 2019 07:44:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト