超解像度画像の正確な詳細を追求することは、単一画像の超解像度タスクでは困難です。この論文では、3 つのコア設計を含む、ヘアラインの詳細を備えた単一画像超解像度ネットワーク (NLCUnet と呼ばれる) を紹介します。具体的には、画像領域全体から学習することによってローカル部分を復元するために、非ローカル アテンション メカニズムが最初に導入されます。すると、既存の研究で訓練されたブラーカーネルが不要であることがわかります。この発見に基づいて、ブラー カーネル推定を行わずに深さ方向の畳み込みとチャネル アテンションを統合することで新しいネットワーク アーキテクチャを作成し、その結果、代わりにパフォーマンスが向上します。最後に、トリミングされた領域にできるだけ多くの意味情報が含まれるようにするために、2K サイズの画像全体内で直接ランダムにトリミングするのではなく、中央の 512 × 512 のトリミング内にランダムな 64 × 64 のトリミングを提案します。ベンチマーク DF2K データセットに対して行われた多数の実験により、NLCUnet が PSNR および SSIM メトリクスの点で最先端のものよりも優れたパフォーマンスを示し、視覚的に好ましいヘアラインの詳細が得られることが実証されました。
Pursuing the precise details of super-resolution images is challenging for single-image super-resolution tasks. This paper presents a single-image super-resolution network with hairline details (termed NLCUnet), including three core designs. Specifically, a non-local attention mechanism is first introduced to restore local pieces by learning from the whole image region. Then, we find that the blur kernel trained by the existing work is unnecessary. Based on this finding, we create a new network architecture by integrating depth-wise convolution with channel attention without the blur kernel estimation, resulting in a performance improvement instead. Finally, to make the cropped region contain as much semantic information as possible, we propose a random 64×64 crop inside the central 512×512 crop instead of a direct random crop inside the whole image of 2K size. Numerous experiments conducted on the benchmark DF2K dataset demonstrate that our NLCUnet performs better than the state-of-the-art in terms of the PSNR and SSIM metrics and yields visually favorable hairline details.