ダウンサンプリングは、最も基本的な画像処理操作の1つです。ビデオに不適切な時空間ダウンサンプリングを適用すると、空間のモアレパターンや時間のワゴンホイール効果などのエイリアシングの問題が発生する可能性があります。その結果、低解像度、低フレームレートのビデオを空間と時間でアップスケーリングするという逆のタスクは、情報の損失とエイリアシングのアーティファクトのために、困難な不適切な問題になります。この論文では、時空間ダウンサンプラーを学習することにより、時空間エイリアシング問題を解決することを目指しています。この目標に向けて、時空間ダウンサンプリングとアップサンプリングを共同で学習するニューラルネットワークフレームワークを提案します。これにより、ダウンサンプラーは元のビデオのキーパターンを保持し、アップサンプラーの再構成パフォーマンスを最大化できます。ダウンサンプリングの結果を一般的な画像およびビデオストレージ形式と互換性を持たせるために、ダウンサンプリングの結果は、微分可能な量子化レイヤーを使用してuint8にエンコードされます。時空対応を十分に活用するために、明示的な時間伝播と時空特徴再配置のための2つの新しいモジュールを提案します。実験結果は、提案した方法が、ダウンサンプリングとアップスケーリングの両方で空間テクスチャとモーションパターンを保持することにより、時空間再構成の品質を大幅に向上させることを示しています。さらに、私たちのフレームワークは、任意のビデオのリサンプリング、ぼやけたフレームの再構築、効率的なビデオストレージなど、さまざまなアプリケーションを可能にします。
Downsampling is one of the most basic image processing operations. Improper spatio-temporal downsampling applied on videos can cause aliasing issues such as moiré patterns in space and the wagon-wheel effect in time. Consequently, the inverse task of upscaling a low-resolution, low frame-rate video in space and time becomes a challenging ill-posed problem due to information loss and aliasing artifacts. In this paper, we aim to solve the space-time aliasing problem by learning a spatio-temporal downsampler. Towards this goal, we propose a neural network framework that jointly learns spatio-temporal downsampling and upsampling. It enables the downsampler to retain the key patterns of the original video and maximizes the reconstruction performance of the upsampler. To make the downsamping results compatible with popular image and video storage formats, the downsampling results are encoded to uint8 with a differentiable quantization layer. To fully utilize the space-time correspondences, we propose two novel modules for explicit temporal propagation and space-time feature rearrangement. Experimental results show that our proposed method significantly boosts the space-time reconstruction quality by preserving spatial textures and motion patterns in both downsampling and upscaling. Moreover, our framework enables a variety of applications, including arbitrary video resampling, blurry frame reconstruction, and efficient video storage.