arXiv reaDer
実世界のビデオ超解像におけるトレードオフの調査
Investigating Tradeoffs in Real-World Video Super-Resolution
実世界のビデオ超解像(VSR)の劣化の多様性と複雑さは、推論とトレーニングにおいて重要な課題をもたらします。第1に、長期的な伝播は軽度の劣化の場合にパフォーマンスの向上につながりますが、深刻な野生の劣化は伝播によって誇張され、出力品質を損なう可能性があります。詳細合成とアーティファクト抑制の間のトレードオフのバランスをとるために、伝播前のノイズとアーティファクトを減らすために、画像の事前クリーニング段階が不可欠であることがわかりました。慎重に設計されたクリーニングモジュールを装備したRealBasicVSRは、品質と効率の両方で既存の方法よりも優れています。第2に、実際のVSRモデルは、一般化可能性を向上させるためにさまざまな劣化でトレーニングされることが多く、安定した勾配を生成するためにバッチサイズを増やす必要があります。必然的に、計算負荷の増加は、1)速度とパフォーマンスのトレードオフ、2)バッチ長のトレードオフなど、さまざまな問題を引き起こします。最初のトレードオフを軽減するために、パフォーマンスを犠牲にすることなくトレーニング時間を最大40%短縮する確率的劣化スキームを提案します。次に、さまざまなトレーニング設定を分析し、トレーニング中に大きなバッチではなく長いシーケンスを使用すると、時間情報をより効果的に使用できるようになり、推論中のパフォーマンスがより安定することを提案します。公正な比較を容易にするために、新しいVideoLQデータセットを提案します。このデータセットには、豊富なテクスチャとパターンを含む実世界の低品質のビデオシーケンスが多数含まれています。私たちのデータセットは、ベンチマークの共通の基盤として役立ちます。コード、モデル、およびデータセットは一般に公開されます。
The diversity and complexity of degradations in real-world video super-resolution (VSR) pose non-trivial challenges in inference and training. First, while long-term propagation leads to improved performance in cases of mild degradations, severe in-the-wild degradations could be exaggerated through propagation, impairing output quality. To balance the tradeoff between detail synthesis and artifact suppression, we found an image pre-cleaning stage indispensable to reduce noises and artifacts prior to propagation. Equipped with a carefully designed cleaning module, our RealBasicVSR outperforms existing methods in both quality and efficiency. Second, real-world VSR models are often trained with diverse degradations to improve generalizability, requiring increased batch size to produce a stable gradient. Inevitably, the increased computational burden results in various problems, including 1) speed-performance tradeoff and 2) batch-length tradeoff. To alleviate the first tradeoff, we propose a stochastic degradation scheme that reduces up to 40% of training time without sacrificing performance. We then analyze different training settings and suggest that employing longer sequences rather than larger batches during training allows more effective uses of temporal information, leading to more stable performance during inference. To facilitate fair comparisons, we propose the new VideoLQ dataset, which contains a large variety of real-world low-quality video sequences containing rich textures and patterns. Our dataset can serve as a common ground for benchmarking. Code, models, and the dataset will be made publicly available.
updated: Wed Nov 24 2021 18:58:21 GMT+0000 (UTC)
published: Wed Nov 24 2021 18:58:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト