arXiv reaDer
Compositional Video Prediction
シーンの入力画像を与えられたピクセルレベルの将来予測のためのアプローチを提示します。シーンは、動きを受ける別個のエンティティで構成されており、この洞察を実用化するアプローチを示していることがわかります。相互作用について推論しながら、独立したエンティティの将来の状態を暗黙的に予測し、これらの予測された状態を使用して将来のビデオフレームを作成します。グローバルトラジェクトリレベルの潜在的なランダム変数を使用して、タスクの固有のマルチモダリティを克服し、これにより、多様でもっともらしい未来をサンプリングできることを示します。代替表現とマルチモダリティを組み込む方法に対するアプローチを経験的に検証します。 2つのデータセットを調べます。1つは落下する可能性のある積み重なったオブジェクトで構成され、もう1つはジムでアクティビティを実行する人間のビデオを含み、これらの多様な設定で現実的な確率的ビデオ予測が可能なアプローチを示しています。ビデオの予測については、を参照してください。
We present an approach for pixel-level future prediction given an input image of a scene. We observe that a scene is comprised of distinct entities that undergo motion and present an approach that operationalizes this insight. We implicitly predict future states of independent entities while reasoning about their interactions, and compose future video frames using these predicted states. We overcome the inherent multi-modality of the task using a global trajectory-level latent random variable, and show that this allows us to sample diverse and plausible futures. We empirically validate our approach against alternate representations and ways of incorporating multi-modality. We examine two datasets, one comprising of stacked objects that may fall, and the other containing videos of humans performing activities in a gym, and show that our approach allows realistic stochastic video prediction across these diverse settings. See for video predictions.
updated: Thu Aug 22 2019 17:55:58 GMT+0000 (UTC)
published: Thu Aug 22 2019 17:55:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト