劣化したビデオから鮮明なフレームを復元することを目的としたビデオ復元には、数多くの重要な用途があります。ビデオ復元の鍵は、フレーム間情報の活用にかかっています。ただし、既存の深層学習手法は、オプティカル フロー推定、変形可能な畳み込み、クロスフレーム セルフ アテンション レイヤーなどの複雑なネットワーク アーキテクチャに依存することが多く、その結果、計算コストが高くなります。この研究では、ビデオ復元のためのシンプルかつ効果的なフレームワークを提案します。私たちのアプローチは、グループ化された時空間シフトに基づいています。これは、マルチフレーム集約のためのフレーム間の対応を暗黙的にキャプチャできる軽量で簡単な手法です。グループ化された空間シフトを導入することで、広大な有効受容野を実現します。このシンプルなフレームワークを基本的な 2D 畳み込みと組み合わせることで、フレーム間の情報を効果的に集約できます。広範な実験により、ビデオのブレ除去タスクとビデオのノイズ除去タスクの両方で、私たちのフレームワークが以前の最先端の方法よりも優れたパフォーマンスを発揮し、使用する計算コストは 4 分の 1 未満であることが実証されました。これらの結果は、私たちのアプローチが高品質の結果を維持しながら計算オーバーヘッドを大幅に削減できる可能性を示しています。コードは https://github.com/dasongli1/Shift-Net で入手できます。
Video restoration, which aims to restore clear frames from degraded videos, has numerous important applications. The key to video restoration depends on utilizing inter-frame information. However, existing deep learning methods often rely on complicated network architectures, such as optical flow estimation, deformable convolution, and cross-frame self-attention layers, resulting in high computational costs. In this study, we propose a simple yet effective framework for video restoration. Our approach is based on grouped spatial-temporal shift, which is a lightweight and straightforward technique that can implicitly capture inter-frame correspondences for multi-frame aggregation. By introducing grouped spatial shift, we attain expansive effective receptive fields. Combined with basic 2D convolution, this simple framework can effectively aggregate inter-frame information. Extensive experiments demonstrate that our framework outperforms the previous state-of-the-art method, while using less than a quarter of its computational cost, on both video deblurring and video denoising tasks. These results indicate the potential for our approach to significantly reduce computational overhead while maintaining high-quality results. Code is avaliable at https://github.com/dasongli1/Shift-Net.