ビデオ超解像の場合、現在の最先端のアプローチは、複数の低解像度(LR)フレームを処理して、スライディングウィンドウ方式で各出力高解像度(HR)フレームを個別に生成するか、以前に推定されたHRフレームを繰り返し活用します次のフレームを超解像します。これらのアプローチの主な弱点は、1)各出力フレームを個別に生成すると、高品質のHR推定値が得られる一方で、不十分なフリッカーアーティファクトが発生する可能性があること、2)短い情報フローの場合に以前に生成されたHRフレームを組み合わせると、時間的に一貫した結果が得られること、ただし、前の超解像エラーは後続のフレームに常に蓄積されるため、大きなジッターとギザギザのアーティファクトが発生します。この論文では、完全にエンドツーエンドのトレーニング可能なフレームと、2つの主要なサブネットワーク(ローカルネットワークとコンテキストネットワーク)で構成される機能コンテキストビデオ超解像度(FFCVSR)ネットワークを提案します。連続したLRフレームからローカルフィーチャとローカルSRフレームを生成し、もう一方はローカルネットワークの出力と以前に推定されたHRフレームとフィーチャを組み合わせて、後続のフレームを超解像します。私たちのアプローチは、複数のLRフレームのフレーム間情報と以前に予測されたHRフレームのコンテキスト情報を最大限に活用し、以前の機能とフレームを直接再利用することでリアルタイムの速度を維持しながら、時間的に一貫した高品質の結果を生成します。広範な評価と比較により、当社のアプローチが標準ベンチマークデータセットに最新の結果をもたらし、既存のアプローチよりも精度、効率、視覚品質の面で有利であることが実証されています。
For video super-resolution, current state-of-the-art approaches either process multiple low-resolution (LR) frames to produce each output high-resolution (HR) frame separately in a sliding window fashion or recurrently exploit the previously estimated HR frames to super-resolve the following frame. The main weaknesses of these approaches are: 1) separately generating each output frame may obtain high-quality HR estimates while resulting in unsatisfactory flickering artifacts, and 2) combining previously generated HR frames can produce temporally consistent results in the case of short information flow, but it will cause significant jitter and jagged artifacts because the previous super-resolving errors are constantly accumulated to the subsequent frames. In this paper, we propose a fully end-to-end trainable frame and feature-context video super-resolution (FFCVSR) network that consists of two key sub-networks: local network and context network, where the first one explicitly utilizes a sequence of consecutive LR frames to generate local feature and local SR frame, and the other combines the outputs of local network and the previously estimated HR frames and features to super-resolve the subsequent frame. Our approach takes full advantage of the inter-frame information from multiple LR frames and the context information from previously predicted HR frames, producing temporally consistent high-quality results while maintaining real-time speed by directly reusing previous features and frames. Extensive evaluations and comparisons demonstrate that our approach produces state-of-the-art results on a standard benchmark dataset, with advantages in terms of accuracy, efficiency, and visual quality over the existing approaches.