低コンピューティング デバイスで高フレーム レートのビデオをグラフィカルにレンダリングするという課題は、将来のフレームを定期的に予測することで対処でき、仮想現実アプリケーションでのユーザー エクスペリエンスを向上させることができます。これは、時間ビュー合成 (TVS) の問題を通じて研究されます。ここでの目標は、前のフレームと、前のフレームと次のフレームの頭の姿勢を考慮して、ビデオの次のフレームを予測することです。この作業では、ユーザーとオブジェクトの両方が移動している動的シーンの TVS を検討します。次のフレームを予測しながら、利用可能なユーザーの動きを効果的に使用するために、動きをユーザーとオブジェクトの動きに分離するフレームワークを設計します。過去のフレームの 3D オブジェクトの動きを分離して推定し、それを外挿することによって、オブジェクトの動きを予測します。シーンの 3D 表現としてマルチプレーン イメージ (MPI) を採用し、オブジェクトの動きを MPI 表現の対応する点間の 3D 変位としてモデル化します。動きを推定しながらMPIのスパース性を処理するために、部分畳み込みとマスクされた相関レイヤーを組み込んで、対応するポイントを推定します。次に、予測されたオブジェクトの動きは、指定されたユーザーまたはカメラの動きと統合されて、次のフレームが生成されます。 Disocclusion infilling モジュールを使用して、カメラとオブジェクトの動きによって明らかになった領域を合成します。フル HD 解像度の 800 本のビデオで構成される動的シーンの TVS 用の新しい合成データセットを開発します。私たちのデータセットと MPI Sintel データセットの実験を通して、私たちのモデルが文献のすべての競合する方法よりも優れていることを示しています。
The challenge of graphically rendering high frame-rate videos on low compute devices can be addressed through periodic prediction of future frames to enhance the user experience in virtual reality applications. This is studied through the problem of temporal view synthesis (TVS), where the goal is to predict the next frames of a video given the previous frames and the head poses of the previous and the next frames. In this work, we consider the TVS of dynamic scenes in which both the user and objects are moving. We design a framework that decouples the motion into user and object motion to effectively use the available user motion while predicting the next frames. We predict the motion of objects by isolating and estimating the 3D object motion in the past frames and then extrapolating it. We employ multi-plane images (MPI) as a 3D representation of the scenes and model the object motion as the 3D displacement between the corresponding points in the MPI representation. In order to handle the sparsity in MPIs while estimating the motion, we incorporate partial convolutions and masked correlation layers to estimate corresponding points. The predicted object motion is then integrated with the given user or camera motion to generate the next frame. Using a disocclusion infilling module, we synthesize the regions uncovered due to the camera and object motion. We develop a new synthetic dataset for TVS of dynamic scenes consisting of 800 videos at full HD resolution. We show through experiments on our dataset and the MPI Sintel dataset that our model outperforms all the competing methods in the literature.