ビデオフレーム補間(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としています。最先端のアプローチは通常、2段階のソリューションを採用します。これには、1)フローベースのモーション推定による局所的にワープしたピクセルの生成、2)ワープしたピクセルをブレンドして、深い神経合成ネットワークを介して完全なフレームを形成することが含まれます。ただし、2つの連続するフレームからの一貫性のないワープのため、新しいフレームのワープされたフィーチャは通常整列されません。これにより、特に大きく複雑なモーションが発生した場合に、フレームが歪んだりぼやけたりします。この問題を解決するために、この論文では、ビデオフレーム補間(TTVFI)用の新しい軌道認識トランスフォーマーを提案します。特に、クエリトークンとして一貫性のないモーションを使用してワープされた特徴を定式化し、2つの元の連続するフレームからキーと値へのモーション軌跡の関連領域を定式化します。軌道に沿った関連するトークンについて自己注意を学習し、エンドツーエンドのトレーニングを通じて、元の機能を中間フレームにブレンドします。実験結果は、私たちの方法が、広く使用されている4つのVFIベンチマークで他の最先端の方法よりも優れていることを示しています。コードモデルと事前トレーニング済みモデルの両方がまもなくリリースされます。
Video frame interpolation (VFI) aims to synthesize an intermediate frame between two consecutive frames. State-of-the-art approaches usually adopt a two-step solution, which includes 1) generating locally-warped pixels by flow-based motion estimations, 2) blending the warped pixels to form a full frame through deep neural synthesis networks. However, due to the inconsistent warping from the two consecutive frames, the warped features for new frames are usually not aligned, which leads to distorted and blurred frames, especially when large and complex motions occur. To solve this issue, in this paper we propose a novel Trajectory-aware Transformer for Video Frame Interpolation (TTVFI). In particular, we formulate the warped features with inconsistent motions as query tokens, and formulate relevant regions in a motion trajectory from two original consecutive frames into keys and values. Self-attention is learned on relevant tokens along the trajectory to blend the pristine features into intermediate frames through end-to-end training. Experimental results demonstrate that our method outperforms other state-of-the-art methods in four widely-used VFI benchmarks. Both code and pre-trained models will be released soon.