arXiv reaDer
PDWN:ビデオ補間用のピラミッド変形可能ワーピングネットワーク
PDWN: Pyramid Deformable Warping Network for Video Interpolation
ビデオ補間は、過去と未来のフレームを指定して、存在しない中間フレームを生成することを目的としています。多くの最先端の方法は、既知のフレーム間のオプティカルフローを推定し、次に中間フレームと既知のフレーム間の逆流を生成することにより、有望な結果を達成します。ただし、これらの方法は通常、推定されたオプティカルフローの不正確さに悩まされ、フロー推定エラーを補正するために追加のモデルまたは情報を必要とします。ビデオ補間に変形可能畳み込み(DConv)を使用する最近の開発に続いて、ピラミッド変形可能ワーピングネットワーク(PDWN)と呼ばれる軽量で効果的なモデルを提案します。 PDWNは、ピラミッド構造を使用して、粗いものから細かいものへの連続的な改良を通じて、既知のフレームに対する未知の中間フレームのDConvオフセットを生成します。ワープされたフィーチャ間のコストボリュームは、オフセットの推論を支援するためにすべてのピラミッドレベルで計算されます。最高のスケールでは、2つのワープフレームが適応的にブレンドされて中央のフレームが生成されます。最後に、コンテキスト拡張ネットワークは、最終出力のコンテキストの詳細をさらに拡張します。アブレーション研究は、粗いものから細かいものへのオフセットの改良、コスト量、およびDConvの有効性を示しています。私たちの方法は、複数のデータセットの最先端のモデルと比較して、より優れた、または同等の精度を実現しますが、モデルパラメータの数と推論時間は以前のモデルよりも大幅に少なくなります。さらに、提案されたフレームワークを拡張して4つの入力フレームを使用することで、モデルのサイズと推論時間をわずかに増やすだけで、2つの入力フレームのみを使用するよりも大幅に改善できます。
Video interpolation aims to generate a non-existent intermediate frame given the past and future frames. Many state-of-the-art methods achieve promising results by estimating the optical flow between the known frames and then generating the backward flows between the middle frame and the known frames. However, these methods usually suffer from the inaccuracy of estimated optical flows and require additional models or information to compensate for flow estimation errors. Following the recent development in using deformable convolution (DConv) for video interpolation, we propose a light but effective model, called Pyramid Deformable Warping Network (PDWN). PDWN uses a pyramid structure to generate DConv offsets of the unknown middle frame with respect to the known frames through coarse-to-fine successive refinements. Cost volumes between warped features are calculated at every pyramid level to help the offset inference. At the finest scale, the two warped frames are adaptively blended to generate the middle frame. Lastly, a context enhancement network further enhances the contextual detail of the final output. Ablation studies demonstrate the effectiveness of the coarse-to-fine offset refinement, cost volumes, and DConv. Our method achieves better or on-par accuracy compared to state-of-the-art models on multiple datasets while the number of model parameters and the inference time are substantially less than previous models. Moreover, we present an extension of the proposed framework to use four input frames, which can achieve significant improvement over using only two input frames, with only a slight increase in the model size and inference time.
updated: Sun Apr 04 2021 02:08:57 GMT+0000 (UTC)
published: Sun Apr 04 2021 02:08:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト