arXiv reaDer
Refusion: 潜在空間拡散モデルによる大規模でリアルな画像復元の有効化
Refusion: Enabling Large-Size Realistic Image Restoration with Latent-Space Diffusion Models
この作業は、現実的な画像復元における拡散モデルの適用性を向上させることを目的としています。具体的には、ネットワーク アーキテクチャ、ノイズ レベル、ノイズ除去ステップ、トレーニング イメージ サイズ、オプティマイザー/スケジューラーなど、いくつかの側面で拡散モデルを強化します。これらのハイパーパラメータを調整することで、歪みと知覚スコアの両方でより良いパフォーマンスを達成できることを示しています。また、復号化プロセスのために元の入力からの高解像度情報を保持しながら、低解像度の潜在空間で拡散を実行する U-Net ベースの潜在拡散モデルを提案します。 VAE-GANをトレーニングして画像を圧縮する以前の潜在拡散モデルと比較して、提案されたU-Net圧縮戦略ははるかに安定しており、敵対的最適化に頼ることなく非常に正確な画像を回復できます。重要なのは、これらの変更により、拡散モデルをさまざまな画像復元タスクに適用できるようになることです。これには、現実世界の影の除去、HR 非均一のかすみ除去、ステレオ超解像、ボケ効果の変換が含まれます。データセットを置き換え、ノイズ ネットワークをわずかに変更するだけで、Refusion という名前のモデルは、大きなサイズの画像 (たとえば、HR のかすみ除去で 6000 x 4000 x 3) を処理でき、上記のすべての復元の問題で良好な結果が得られます。当社の Refusion は、NTIRE 2023 Image Shadow Removal Challenge で最高の知覚パフォーマンスを達成し、全体で 2 位を獲得しました。
This work aims to improve the applicability of diffusion models in realistic image restoration. Specifically, we enhance the diffusion model in several aspects such as network architecture, noise level, denoising steps, training image size, and optimizer/scheduler. We show that tuning these hyperparameters allows us to achieve better performance on both distortion and perceptual scores. We also propose a U-Net based latent diffusion model which performs diffusion in a low-resolution latent space while preserving high-resolution information from the original input for the decoding process. Compared to the previous latent-diffusion model which trains a VAE-GAN to compress the image, our proposed U-Net compression strategy is significantly more stable and can recover highly accurate images without relying on adversarial optimization. Importantly, these modifications allow us to apply diffusion models to various image restoration tasks, including real-world shadow removal, HR non-homogeneous dehazing, stereo super-resolution, and bokeh effect transformation. By simply replacing the datasets and slightly changing the noise network, our model, named Refusion, is able to deal with large-size images (e.g., 6000 x 4000 x 3 in HR dehazing) and produces good results on all the above restoration problems. Our Refusion achieves the best perceptual performance in the NTIRE 2023 Image Shadow Removal Challenge and wins 2nd place overall.
updated: Mon Apr 17 2023 14:06:49 GMT+0000 (UTC)
published: Mon Apr 17 2023 14:06:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト