SDCNet: Video Prediction Using Spatially-Displaced Convolution
過去のフレームと過去のオプティカルフローの両方を条件付けることにより、高解像度ビデオフレーム予測のアプローチを提示します。以前のアプローチは、学習された将来のオプティカルフローによって導かれる過去のフレームのリサンプリング、またはピクセルの直接生成に依存しています。フローに基づくリサンプリングは、オクルージョンを処理できないため、不十分です。生成モデルは現在、ぼやけた結果につながります。最近のアプローチでは、入力パッチを予測されたカーネルと畳み込むことによってピクセルを合成します。ただし、それらのメモリ要件はカーネルサイズとともに増加します。ここでは、ビデオフレーム予測用の空間変位畳み込み(SDC)モジュールを紹介します。各ピクセルの動きベクトルとカーネルを学習し、予測された動きベクトルによって定義されたソース画像内の変位した位置にカーネルを適用することによってピクセルを合成します。私たちのアプローチは、ベクトルベースとカーネルベースの両方のアプローチのメリットを継承しながら、それぞれのデメリットを改善します。 428Kのラベルなし1080pビデオゲームフレームでモデルをトレーニングします。私たちのアプローチは最先端の結果を生み出し、高解像度のYouTube-8Mビデオで0.904、CaltechPedestrianビデオで0.918のSSIMスコアを達成します。私たちのモデルは、大きな動きを効果的に処理し、一貫した動きで鮮明なフレームを合成します。
We present an approach for high-resolution video frame prediction by conditioning on both past frames and past optical flows. Previous approaches rely on resampling past frames, guided by a learned future optical flow, or on direct generation of pixels. Resampling based on flow is insufficient because it cannot deal with disocclusions. Generative models currently lead to blurry results. Recent approaches synthesis a pixel by convolving input patches with a predicted kernel. However, their memory requirement increases with kernel size. Here, we spatially-displaced convolution (SDC) module for video frame prediction. We learn a motion vector and a kernel for each pixel and synthesize a pixel by applying the kernel at a displaced location in the source image, defined by the predicted motion vector. Our approach inherits the merits of both vector-based and kernel-based approaches, while ameliorating their respective disadvantages. We train our model on 428K unlabelled 1080p video game frames. Our approach produces state-of-the-art results, achieving an SSIM score of 0.904 on high-definition YouTube-8M videos, 0.918 on Caltech Pedestrian videos. Our model handles large motion effectively and synthesizes crisp frames with consistent motion.
updated: Sun Mar 28 2021 00:13:51 GMT+0000 (UTC)
published: Fri Nov 02 2018 00:14:05 GMT+0000 (UTC)
