ビデオフレーム補間は、元のフレームの間に存在しないフレームを合成することを目的としています。最近の深い畳み込みニューラルネットワークから大幅な進歩がなされましたが、オブジェクトの大きな動きまたはオクルージョンのために、補間の品質が低下することがよくあります。本研究では、深度情報を探索することによりオクルージョンを明示的に検出するビデオフレーム補間法を提案します。具体的には、深度を意識したフロープロジェクションレイヤーを開発して、より遠いオブジェクトよりも近いオブジェクトをサンプリングする中間フローを合成します。さらに、隣接するピクセルからコンテキスト情報を収集するための階層的な機能を学習します。提案されたモデルは、出力フレームを合成するためのオプティカルフローとローカル補間カーネルに基づいて、入力フレーム、深度マップ、およびコンテキストフィーチャをワープします。このモデルはコンパクトで効率的で、完全に微分可能です。定量的および定性的な結果は、提案されたモデルがさまざまなデータセットで最先端のフレーム補間法に対して良好に機能することを示しています。
Video frame interpolation aims to synthesize nonexistent frames in-between the original frames. While significant advances have been made from the recent deep convolutional neural networks, the quality of interpolation is often reduced due to large object motion or occlusion. In this work, we propose a video frame interpolation method which explicitly detects the occlusion by exploring the depth information. Specifically, we develop a depth-aware flow projection layer to synthesize intermediate flows that preferably sample closer objects than farther ones. In addition, we learn hierarchical features to gather contextual information from neighboring pixels. The proposed model then warps the input frames, depth maps, and contextual features based on the optical flow and local interpolation kernels for synthesizing the output frame. Our model is compact, efficient, and fully differentiable. Quantitative and qualitative results demonstrate that the proposed model performs favorably against state-of-the-art frame interpolation methods on a wide variety of datasets.