ビデオ フレーム補間 (VFI) は、存在するフレーム間に存在しない中間フレームを合成することを目的としています。フローベースの VFI アルゴリズムは、中間モーション フィールドを推定して、既存のフレームをワープします。現実世界の動きは複雑であり、参照フレームが存在しないため、動きの推定が困難になります。最先端のアプローチの多くは、より正確なモーション推定のために、隣接する 2 つのフレーム間の相関を明示的にモデル化します。一般的なアプローチでは、より高い解像度での相関モデリングの受容野は、事前に推定された運動野に依存します。このような受容野の依存性により、一般的なモーション推定アプローチは、小さくて動きの速いオブジェクトに対処するのに不十分になります。相関をより適切にモデル化し、より正確なモーション フィールドを生成するために、受容フィールドの依存性の問題を取り除き、小さくて動きの速いオブジェクトにより適した Densely Queryed Bilateral Correlation (DQBC) を提案します。 DQBC の助けを借りて生成されたモーション フィールドは、コンテキスト機能を使用してさらに洗練され、アップサンプリングされます。モーション フィールドが修正された後、CNN ベースの SynthNet が最終的な補間フレームを合成します。実験によると、私たちのアプローチは最先端のアプローチよりも精度が高く、推論時間が短縮されます。ソース コードは https://github.com/kinoud/DQBC で入手できます。
Video Frame Interpolation (VFI) aims to synthesize non-existent intermediate frames between existent frames. Flow-based VFI algorithms estimate intermediate motion fields to warp the existent frames. Real-world motions' complexity and the reference frame's absence make motion estimation challenging. Many state-of-the-art approaches explicitly model the correlations between two neighboring frames for more accurate motion estimation. In common approaches, the receptive field of correlation modeling at higher resolution depends on the motion fields estimated beforehand. Such receptive field dependency makes common motion estimation approaches poor at coping with small and fast-moving objects. To better model correlations and to produce more accurate motion fields, we propose the Densely Queried Bilateral Correlation (DQBC) that gets rid of the receptive field dependency problem and thus is more friendly to small and fast-moving objects. The motion fields generated with the help of DQBC are further refined and up-sampled with context features. After the motion fields are fixed, a CNN-based SynthNet synthesizes the final interpolated frame. Experiments show that our approach enjoys higher accuracy and less inference time than the state-of-the-art. Source code is available at https://github.com/kinoud/DQBC.