ディープラーニングベースのブラインド超解像(SR)メソッドは、最近、未知の劣化を伴うアップスケーリングフレームで前例のないパフォーマンスを達成しました。これらのモデルは、復元中にカーネルを活用するために、特定の低解像度(LR)イメージから未知のダウンスケーリングカーネルを正確に推定できます。これらのアプローチは大部分が成功していますが、主に画像ベースであるため、複数のビデオフレームにわたるカーネルの時間的特性を利用していません。この論文では、カーネルの時間的特性を調査し、ブラインドビデオ超解像のタスクにおけるその重要性を強調しました。具体的には、実際のビデオのカーネルの時間的一貫性を測定し、シーンとそのオブジェクトのさまざまな動的性のビデオで、推定されたカーネルがフレームごとにどのように変化するかを示しました。この新しい洞察により、以前の人気のあるビデオSRアプローチを再検討し、復元プロセス全体で固定カーネルを使用するという以前の仮定が、実際のビデオをアップスケーリングするときに視覚的なアーティファクトにつながる可能性があることを示しました。これに対抗するために、既存の単一画像とビデオのSR手法を調整して、カーネル推定とビデオのアップスケーリングプロセスの両方でカーネルの一貫性を活用しました。合成ビデオと実世界のビデオに関する広範な実験は、定量的および定性的に大幅な復元の向上を示し、ブラインドビデオSRの新しい最先端を達成し、カーネルの時間的一貫性を活用する可能性を強調しています。
Deep learning-based blind super-resolution (SR) methods have recently achieved unprecedented performance in upscaling frames with unknown degradation. These models are able to accurately estimate the unknown downscaling kernel from a given low-resolution (LR) image in order to leverage the kernel during restoration. Although these approaches have largely been successful, they are predominantly image-based and therefore do not exploit the temporal properties of the kernels across multiple video frames. In this paper, we investigated the temporal properties of the kernels and highlighted its importance in the task of blind video super-resolution. Specifically, we measured the kernel temporal consistency of real-world videos and illustrated how the estimated kernels might change per frame in videos of varying dynamicity of the scene and its objects. With this new insight, we revisited previous popular video SR approaches, and showed that previous assumptions of using a fixed kernel throughout the restoration process can lead to visual artifacts when upscaling real-world videos. In order to counteract this, we tailored existing single-image and video SR techniques to leverage kernel consistency during both kernel estimation and video upscaling processes. Extensive experiments on synthetic and real-world videos show substantial restoration gains quantitatively and qualitatively, achieving the new state-of-the-art in blind video SR and underlining the potential of exploiting kernel temporal consistency.