arXiv reaDer
A-ESRGAN:U-Netディスクリミネーターに注意を払って実世界のブラインド超解像をトレーニング
A-ESRGAN: Training Real-World Blind Super-Resolution with Attention U-Net Discriminators
ブラインド画像の超解像(SR)は、未知の複雑な歪みに悩まされている低解像度の画像を復元することを目的としたCVの長年のタスクです。最近の研究は、実際の劣化をエミュレートするために、より複雑な劣化モデルを採用することに主に焦点を合わせています。結果として得られたモデルは、知覚的損失に飛躍的な進歩をもたらし、知覚的に説得力のある結果をもたらしました。ただし、現在の生成的敵対的ネットワーク構造によってもたらされる制限は依然として重要です。ピクセルを同様に処理すると、画像の構造的特徴が無視され、ねじれた線や背景の過度のシャープ化やぼやけなどのパフォーマンス上の欠点が生じます。この論文では、他のジェネレータとシームレスに統合できる注意U-Netベースのマルチスケール弁別器を特徴とするブラインドSRタスクのGANモデルであるA-ESRGANを紹介します。私たちの知る限り、これはブラインドSR問題を解決するためのGANの弁別子として注目U-Net構造を導入した最初の作業です。また、このペーパーでは、モデルにパフォーマンスの飛躍的進歩をもたらすマルチスケールアテンションU-Netの背後にあるメカニズムの解釈も示しています。以前の作品との比較実験を通じて、私たちのモデルは、非参照の自然な画質評価メトリックで最先端のレベルのパフォーマンスを提示します。そして、私たちのアブレーション研究は、私たちの弁別器を使用すると、RRDBベースのジェネレーターが複数のスケールで画像の構造的特徴を活用でき、その結果、以前の作品と比較してより知覚的にリアルな高解像度画像を生成できることを示しました。
Blind image super-resolution(SR) is a long-standing task in CV that aims to restore low-resolution images suffering from unknown and complex distortions. Recent work has largely focused on adopting more complicated degradation models to emulate real-world degradations. The resulting models have made breakthroughs in perceptual loss and yield perceptually convincing results. However, the limitation brought by current generative adversarial network structures is still significant: treating pixels equally leads to the ignorance of the image's structural features, and results in performance drawbacks such as twisted lines and background over-sharpening or blurring. In this paper, we present A-ESRGAN, a GAN model for blind SR tasks featuring an attention U-Net based, multi-scale discriminator that can be seamlessly integrated with other generators. To our knowledge, this is the first work to introduce attention U-Net structure as the discriminator of GAN to solve blind SR problems. And the paper also gives an interpretation for the mechanism behind multi-scale attention U-Net that brings performance breakthrough to the model. Through comparison experiments with prior works, our model presents state-of-the-art level performance on the non-reference natural image quality evaluator metric. And our ablation studies have shown that with our discriminator, the RRDB based generator can leverage the structural features of an image in multiple scales, and consequently yields more perceptually realistic high-resolution images compared to prior works.
updated: Sun Dec 19 2021 02:50:23 GMT+0000 (UTC)
published: Sun Dec 19 2021 02:50:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト