arXiv reaDer
時空間データのオーバーフィッティングによる高品質で効率的なビデオ超解像に向けて
Towards High-Quality and Efficient Video Super-Resolution via Spatial-Temporal Data Overfitting
深い畳み込みニューラル ネットワーク (DNN) はコンピューター ビジョンのさまざまな分野で広く使用されているため、DNN のオーバーフィッティング機能を利用してビデオ解像度のアップスケーリングを実現することが、最新のビデオ配信システムの新しいトレンドになっています。ビデオをチャンクに分割し、各チャンクを超解像モデルでオーバーフィットすることにより、サーバーはビデオをクライアントに送信する前にエンコードし、ビデオの品質と送信効率を向上させます。ただし、大量のチャンクを使用すると、適切なオーバーフィッティングの品質が保証されることが予想されます。これにより、ストレージが大幅に増加し、データ転送により多くの帯域幅リソースが消費されます。一方、トレーニング最適化手法によってチャンクの数を減らすには、通常、高いモデル容量が必要になり、実行速度が大幅に低下します。これを調整するために、高品質で効率的なビデオ解像度アップスケーリング タスクの新しい方法を提案します。この方法では、時空間情報を活用してビデオを正確にチャンクに分割し、チャンクの数とモデル サイズを最小限に抑えます。さらに、データ認識型の共同トレーニング手法によって、この方法を単一のオーバーフィッティング モデルに進めます。私たちはモデルを市販の携帯電話に展開し、実験結果は、私たちの方法が高いビデオ品質でリアルタイムビデオ超解像を達成することを示しています。最先端の方法と比較して、私たちの方法は 41.6 PSNR で 28 fps のストリーミング速度を達成します。これは、ライブ ビデオ解像度のアップスケーリング タスクで 14 倍速く、2.29 dB 優れています。コードは https://github.com/coulsonlee/STDO-CVPR2023.git で入手できます。
As deep convolutional neural networks (DNNs) are widely used in various fields of computer vision, leveraging the overfitting ability of the DNN to achieve video resolution upscaling has become a new trend in the modern video delivery system. By dividing videos into chunks and overfitting each chunk with a super-resolution model, the server encodes videos before transmitting them to the clients, thus achieving better video quality and transmission efficiency. However, a large number of chunks are expected to ensure good overfitting quality, which substantially increases the storage and consumes more bandwidth resources for data transmission. On the other hand, decreasing the number of chunks through training optimization techniques usually requires high model capacity, which significantly slows down execution speed. To reconcile such, we propose a novel method for high-quality and efficient video resolution upscaling tasks, which leverages the spatial-temporal information to accurately divide video into chunks, thus keeping the number of chunks as well as the model size to minimum. Additionally, we advance our method into a single overfitting model by a data-aware joint training technique, which further reduces the storage requirement with negligible quality drop. We deploy our models on an off-the-shelf mobile phone, and experimental results show that our method achieves real-time video super-resolution with high video quality. Compared with the state-of-the-art, our method achieves 28 fps streaming speed with 41.6 PSNR, which is 14× faster and 2.29 dB better in the live video resolution upscaling tasks. Our codes are available at: https://github.com/coulsonlee/STDO-CVPR2023.git
updated: Wed Mar 15 2023 02:40:02 GMT+0000 (UTC)
published: Wed Mar 15 2023 02:40:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト