深度と相対的なカメラの動きの知識を使用して、過去のフレームから将来のビデオフレームを予測することが目標である、時間ビュー合成の問題を検討します。強度ベースの充填によって非閉塞領域を明らかにするのとは対照的に、合成ビューで非閉塞領域を指すことによって、充填する充填ベクトルのアイデアを研究します。充填中のカメラの動きによって作成された閉塞解除の構造を活用するために、2つの重要な手がかり、充填方向と深さの時間的相関に依存します。ネットワークへの入力として過去の充填方向と正規化された深度マップを反映する時間事前分布を計算することにより、充填ベクトルを予測する学習フレームワークを設計します。 SceneNet RGB-Dデータセットに加えて、時間ビュー合成を評価するために構築した大規模データセットで広範な実験を実施します。私たちの実験は、私たちの充填ベクトル予測アプローチが、文献の他のアプローチと比較して、優れた定量的および定性的な充填性能を達成することを示しています。
We consider the problem of temporal view synthesis, where the goal is to predict a future video frame from the past frames using knowledge of the depth and relative camera motion. In contrast to revealing the disoccluded regions through intensity based infilling, we study the idea of an infilling vector to infill by pointing to a non-disoccluded region in the synthesized view. To exploit the structure of disocclusions created by camera motion during their infilling, we rely on two important cues, temporal correlation of infilling directions and depth. We design a learning framework to predict the infilling vector by computing a temporal prior that reflects past infilling directions and a normalized depth map as input to the network. We conduct extensive experiments on a large scale dataset we build for evaluating temporal view synthesis in addition to the SceneNet RGB-D dataset. Our experiments demonstrate that our infilling vector prediction approach achieves superior quantitative and qualitative infilling performance compared to other approaches in literature.