連続する入力から中間フレームを生成する一般的なビデオフレーム補間アルゴリズムは、通常、重いパラメータまたは大きな遅延を伴う複雑なモデルアーキテクチャに依存しており、さまざまなリアルタイムアプリケーションからそれらを妨げます。この作業では、高速の中間フレーム合成のために、IFRNetと呼ばれる効率的なエンコーダ-デコーダベースのネットワークを考案します。最初に、指定された入力からピラミッドフィーチャを抽出し、次に、目的の出力を生成するまで、強力な中間フィーチャとともに両側の中間フローフィールドを改良します。徐々に洗練された中間機能は、中間フローの推定を容易にするだけでなく、コンテキストの詳細を補正することもできるため、IFRNetは追加の合成または洗練モジュールを必要としません。その可能性を完全に解放するために、フレーム合成に向けた有用な教師の知識の学習に焦点を当てた、新しいタスク指向のオプティカルフロー蒸留損失をさらに提案します。一方、より良い構造レイアウトを維持するために、徐々に洗練された中間フィーチャに新しいジオメトリ整合性正則化項が課されます。さまざまなベンチマークでの実験は、提案されたアプローチの優れたパフォーマンスと高速な推論速度を示しています。コードはhttps://github.com/ltkong218/IFRNetで入手できます。
Prevailing video frame interpolation algorithms, that generate the intermediate frames from consecutive inputs, typically rely on complex model architectures with heavy parameters or large delay, hindering them from diverse real-time applications. In this work, we devise an efficient encoder-decoder based network, termed IFRNet, for fast intermediate frame synthesizing. It first extracts pyramid features from given inputs, and then refines the bilateral intermediate flow fields together with a powerful intermediate feature until generating the desired output. The gradually refined intermediate feature can not only facilitate intermediate flow estimation, but also compensate for contextual details, making IFRNet do not need additional synthesis or refinement module. To fully release its potential, we further propose a novel task-oriented optical flow distillation loss to focus on learning the useful teacher knowledge towards frame synthesizing. Meanwhile, a new geometry consistency regularization term is imposed on the gradually refined intermediate features to keep better structure layout. Experiments on various benchmarks demonstrate the excellent performance and fast inference speed of proposed approaches. Code is available at https://github.com/ltkong218/IFRNet.