arXiv reaDer
S2R: 理想的およびブラインド超解像度のための Double-Win トランスフォーマー ベースのフレームワークの探索
S2R: Exploring a Double-Win Transformer-Based Framework for Ideal and Blind Super-Resolution
現在、ディープ ラーニング ベースの手法は、理想的な超解像度 (SR) データセットで優れたパフォーマンスを実証していますが、これらの手法のほとんどは、予測不可能なブラー カーネルを使用する現実世界の SR 再構成タスクに直接適用すると、パフォーマンスが大幅に低下します。この問題に取り組むために、ランダム ブラー カーネルの視覚的結果を改善するブラインド SR 法が提案されていますが、これは理想的な低解像度画像でも同様に不満足な再構成効果を引き起こします。この論文では、軽量のトランスフォーマーベースの SR モデル (S2R トランスフォーマー) と、優れた優れた結果を達成できる新しい粗密トレーニング戦略を含む、S2R と呼ばれる、理想的およびブラインド SR タスクのためのダブルウィン フレームワークを提案します。理想的な条件とランダムなファジー条件の両方での視覚的な結果。アルゴリズム レベルでは、S2R トランスフォーマーはいくつかの効率的で軽量なブロックをスマートに組み合わせて、比較的少ないパラメータで抽出された特徴の表現能力を強化します。トレーニング戦略では、まず大規模な外部データセットを利用してネットワークの一般化を改善するために粗レベルの学習プロセスが実行され、その後、事前トレーニングされたモデルをネットワークに転送するための高速微調整プロセスが開発されます。画像の内部特徴をマイニングすることによる現実世界の SR タスク。実験結果は、提案された S2R が、パラメータがわずか 578K の理想的な SR 条件において、他の単一画像 SR モデルよりも優れた性能を発揮することを示しています。一方、ブラインド ファジー条件では、わずか 10 回の勾配更新で通常のブラインド SR モデルよりも優れた視覚的結果を達成でき、これにより収束速度が 300 倍向上し、現実の状況での転移学習プロセスが大幅に高速化されます。
Nowadays, deep learning based methods have demonstrated impressive performance on ideal super-resolution (SR) datasets, but most of these methods incur dramatically performance drops when directly applied in real-world SR reconstruction tasks with unpredictable blur kernels. To tackle this issue, blind SR methods are proposed to improve the visual results on random blur kernels, which causes unsatisfactory reconstruction effects on ideal low-resolution images similarly. In this paper, we propose a double-win framework for ideal and blind SR task, named S2R, including a light-weight transformer-based SR model (S2R transformer) and a novel coarse-to-fine training strategy, which can achieve excellent visual results on both ideal and random fuzzy conditions. On algorithm level, S2R transformer smartly combines some efficient and light-weight blocks to enhance the representation ability of extracted features with relatively low number of parameters. For training strategy, a coarse-level learning process is firstly performed to improve the generalization of the network with the help of a large-scale external dataset, and then, a fast fine-tune process is developed to transfer the pre-trained model to real-world SR tasks by mining the internal features of the image. Experimental results show that the proposed S2R outperforms other single-image SR models in ideal SR condition with only 578K parameters. Meanwhile, it can achieve better visual results than regular blind SR models in blind fuzzy conditions with only 10 gradient updates, which improve convergence speed by 300 times, significantly accelerating the transfer-learning process in real-world situations.
updated: Wed Aug 16 2023 04:27:44 GMT+0000 (UTC)
published: Wed Aug 16 2023 04:27:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト