arXiv reaDer
GLaMa:一般的な画像修復のための共同の空間損失と周波数損失
GLaMa: Joint Spatial and Frequency Loss for General Image Inpainting
画像修復の目的は、残りの部分からのコンテキスト情報を使用して、傷や損傷した領域を回復することです。近年、畳み込みニューラルネットワーク(CNN)の復活のおかげで、画像修復タスクは大きな進歩を遂げました。ただし、ほとんどの作業ではマスクの種類が不十分であると見なされており、見えないマスクに遭遇するとパフォーマンスが大幅に低下します。これらの課題に対処するために、GLaMaと呼ばれるLaMa画像修復フレームワークに基づいて、この問題を解決するためのシンプルでありながら一般的な方法を提案します。私たちが提案するGLaMaは、より多くの種類のマスクを使用することで、さまざまな種類の欠落情報をより適切にキャプチャできます。トレーニングフェーズでより劣化した画像を組み込むことにより、さまざまなマスクに関してモデルの堅牢性を高めることが期待できます。より合理的な結果を出すために、従来の空間再構成損失と敵対的損失に加えて、周波数ベースの損失をさらに導入します。特に、空間領域と周波数領域の両方で効果的な再構成損失を導入して、再構成された画像のチェス盤効果とリップルを低減します。広範な実験により、FFHQ、ImageNet、Places2、およびWikiArtデータセットの各タイプのマスクについて、この方法が元のLaMa方法よりもパフォーマンスを向上できることが実証されています。提案されたGLaMaは、NTIRE 2022 Image Inpainting Challenge Track 1 Unsupervisedで、PSNR、LPIPS、およびSSIMの点で1位にランクされました。
The purpose of image inpainting is to recover scratches and damaged areas using context information from remaining parts. In recent years, thanks to the resurgence of convolutional neural networks (CNNs), image inpainting task has made great breakthroughs. However, most of the work consider insufficient types of mask, and their performance will drop dramatically when encountering unseen masks. To combat these challenges, we propose a simple yet general method to solve this problem based on the LaMa image inpainting framework, dubbed GLaMa. Our proposed GLaMa can better capture different types of missing information by using more types of masks. By incorporating more degraded images in the training phase, we can expect to enhance the robustness of the model with respect to various masks. In order to yield more reasonable results, we further introduce a frequency-based loss in addition to the traditional spatial reconstruction loss and adversarial loss. In particular, we introduce an effective reconstruction loss both in the spatial and frequency domain to reduce the chessboard effect and ripples in the reconstructed image. Extensive experiments demonstrate that our method can boost the performance over the original LaMa method for each type of mask on FFHQ, ImageNet, Places2 and WikiArt dataset. The proposed GLaMa was ranked first in terms of PSNR, LPIPS and SSIM in the NTIRE 2022 Image Inpainting Challenge Track 1 Unsupervised.
updated: Sun May 15 2022 02:18:59 GMT+0000 (UTC)
published: Sun May 15 2022 02:18:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト