Ada-VSR: Adaptive Video Super-Resolution with Meta-Learning
監視された時空間ビデオ超解像(STVSR)の既存の作品のほとんどは、低解像度の低フレームレート(LR-LFR)と高解像度の高フレームレートのペアで構成される大規模な外部データセットに大きく依存しています。 (HR-HFR)ビデオ。それらの驚くべき性能にもかかわらず、これらの方法は、実際の設定では成り立たない既知の劣化カーネルを使用して高解像度ビデオをダウンスケーリングすることによって低解像度ビデオが得られることを事前に想定しています。これらの方法のもう1つの問題は、テスト時にビデオのインスタンス固有の内部情報を利用できないことです。最近、ビデオのインスタンス固有の統計を利用できるため、深い内部学習アプローチが注目を集めています。ただし、これらの方法では、データの固有の構造を学習するために何千もの勾配更新が必要になるため、推論時間が長くなります。この作業では、メタ転送学習と内部学習を通じて、それぞれ外部情報と内部情報を活用するAdaptiveVideoSuper-Resolution(Ada-VSR)を紹介します。具体的には、メタ学習を使用して、大規模な外部データセットを使用して適応パラメータを取得します。これにより、内部学習タスク中に特定のテストビデオの新しい条件(劣化モデル)にすばやく適応できるため、超解像のためのビデオ。私たちのアプローチを使用してトレーニングされたモデルは、わずかな勾配更新で特定のビデオ条件にすばやく適応でき、推論時間を大幅に短縮します。標準データセットでの広範な実験は、私たちの方法がさまざまな最先端のアプローチに対して有利に機能することを示しています。
Most of the existing works in supervised spatio-temporal video super-resolution (STVSR) heavily rely on a large-scale external dataset consisting of paired low-resolution low-frame rate (LR-LFR)and high-resolution high-frame-rate (HR-HFR) videos. Despite their remarkable performance, these methods make a prior assumption that the low-resolution video is obtained by down-scaling the high-resolution video using a known degradation kernel, which does not hold in practical settings. Another problem with these methods is that they cannot exploit instance-specific internal information of video at testing time. Recently, deep internal learning approaches have gained attention due to their ability to utilize the instance-specific statistics of a video. However, these methods have a large inference time as they require thousands of gradient updates to learn the intrinsic structure of the data. In this work, we presentAdaptiveVideoSuper-Resolution (Ada-VSR) which leverages external, as well as internal, information through meta-transfer learning and internal learning, respectively. Specifically, meta-learning is employed to obtain adaptive parameters, using a large-scale external dataset, that can adapt quickly to the novel condition (degradation model) of the given test video during the internal learning task, thereby exploiting external and internal information of a video for super-resolution. The model trained using our approach can quickly adapt to a specific video condition with only a few gradient updates, which reduces the inference time significantly. Extensive experiments on standard datasets demonstrate that our method performs favorably against various state-of-the-art approaches.
