arXiv reaDer
DnSwin: 連続ウェーブレット スライディング トランスフォーマーによる実世界のノイズ除去に向けて
DnSwin: Toward Real-World Denoising via Continuous Wavelet Sliding-Transformer
実世界の画像のノイズ除去は、実際のノイズの多い入力からきれいな画像を取得することを目的とした実用的な画像復元問題です。最近、ビジョン トランスフォーマー (ViT) は、長期的な依存関係を捉える強力な能力を示しており、多くの研究者が ViT を画像のノイズ除去タスクに適用しようと試みてきました。ただし、現実世界の画像は、ViT が内部パッチに基づいて長距離の依存関係を構築する孤立したフレームであり、画像をパッチに分割し、ノイズ パターンを混乱させ、勾配の連続性を損ないます。この記事では、DnSwin と呼ばれる、現実世界のシーンで周波数対応を構築する連続ウェーブレット スライディング トランスフォーマーを使用して、この問題を解決することを提案します。具体的には、最初に、畳み込みニューラル ネットワーク (CNN) エンコーダーを使用して、ノイズの多い入力画像から下部の特徴を抽出します。 DnSwin の鍵は、観察された特徴から高頻度および低頻度の情報を抽出し、頻度の依存関係を構築することです。この目的のために、離散ウェーブレット変換 (DWT)、自己注意、逆 DWT (IDWT) を利用して深い特徴を抽出するウェーブレット スライディング ウィンドウ変換器 (WSWT) を提案します。最後に、CNN デコーダーを使用して、深い特徴をノイズ除去された画像に再構築します。実世界のノイズ除去ベンチマークで実施された定量的評価と定性的評価の両方で、提案された DnSwin が最先端の方法に対して有利に機能することが示されています。
Real-world image denoising is a practical image restoration problem that aims to obtain clean images from in-the-wild noisy inputs. Recently, the Vision Transformer (ViT) has exhibited a strong ability to capture long-range dependencies, and many researchers have attempted to apply the ViT to image denoising tasks. However, a real-world image is an isolated frame that makes the ViT build long-range dependencies based on the internal patches, which divides images into patches, disarranges noise patterns and damages gradient continuity. In this article, we propose to resolve this issue by using a continuous Wavelet Sliding-Transformer that builds frequency correspondences under real-world scenes, called DnSwin. Specifically, we first extract the bottom features from noisy input images by using a convolutional neural network (CNN) encoder. The key to DnSwin is to extract high-frequency and low-frequency information from the observed features and build frequency dependencies. To this end, we propose a Wavelet Sliding-Window Transformer (WSWT) that utilizes the discrete wavelet transform (DWT), self-attention and the inverse DWT (IDWT) to extract deep features. Finally, we reconstruct the deep features into denoised images using a CNN decoder. Both quantitative and qualitative evaluations conducted on real-world denoising benchmarks demonstrate that the proposed DnSwin performs favorably against the state-of-the-art methods.
updated: Tue Sep 13 2022 05:14:07 GMT+0000 (UTC)
published: Thu Jul 28 2022 02:33:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト