arXiv reaDer
Transformer の詳細なプロパティの調査による画像のブレ除去
Image Deblurring by Exploring In-depth Properties of Transformer
画像のブレ除去は、生成モデルの開発により、印象的なパフォーマンスを達成し続けています。それにもかかわらず、復元された画像の知覚的品質と定量的スコアを同時に改善したい場合、依然として不快な問題が残っています。この研究では、変圧器の特性の研究から着想を得て、この問題に対処するために事前学習済みの変圧器を紹介します。特に、事前トレーニング済みのビジョン トランスフォーマー (ViT) から抽出された深い特徴を活用して、定量的メトリックによって測定されたパフォーマンスを犠牲にすることなく、復元された画像が鮮明になるようにします。事前に訓練されたトランスフォーマーは、画像の全体的なトポロジー関係 (すなわち、自己相似性) をキャプチャできます。鮮明な画像に関するキャプチャーされたトポロジー関係は、ぼかしが発生すると変化することがわかります。復元された画像とターゲット画像の間でトランスフォーマーの特徴を比較することにより、事前トレーニング済みのトランスフォーマーは、ブレ除去された画像のシャープネスを測定する際に重要な、高解像度のブレに敏感なセマンティック情報を提供します。利点に基づいて、画像のブレ除去を導くために、2種類の新しい知覚損失を提示します。特徴をベクトルと見なし、復元された画像から抽出された表現とユークリッド空間のターゲット画像との間の不一致を計算します。もう1つのタイプは、画像から抽出された特徴を分布と見なし、復元された画像とターゲット画像の間の分布の不一致を比較します。 Uformer、Restormer、NAFNet などの最も競争力のあるモデルで、焦点ぼけ除去および動き除去タスクで、定量的スコア (PSNR) を犠牲にせずに、知覚品質を向上させるトランスフォーマー プロパティの有効性を示します。
Image deblurring continues to achieve impressive performance with the development of generative models. Nonetheless, there still remains a displeasing problem if one wants to improve perceptual quality and quantitative scores of recovered image at the same time. In this study, drawing inspiration from the research of transformer properties, we introduce the pretrained transformers to address this problem. In particular, we leverage deep features extracted from a pretrained vision transformer (ViT) to encourage recovered images to be sharp without sacrificing the performance measured by the quantitative metrics. The pretrained transformer can capture the global topological relations (i.e., self-similarity) of image, and we observe that the captured topological relations about the sharp image will change when blur occurs. By comparing the transformer features between recovered image and target one, the pretrained transformer provides high-resolution blur-sensitive semantic information, which is critical in measuring the sharpness of the deblurred image. On the basis of the advantages, we present two types of novel perceptual losses to guide image deblurring. One regards the features as vectors and computes the discrepancy between representations extracted from recovered image and target one in Euclidean space. The other type considers the features extracted from an image as a distribution and compares the distribution discrepancy between recovered image and target one. We demonstrate the effectiveness of transformer properties in improving the perceptual quality while not sacrificing the quantitative scores (PSNR) over the most competitive models, such as Uformer, Restormer, and NAFNet, on defocus deblurring and motion deblurring tasks.
updated: Sat Jan 27 2024 05:47:40 GMT+0000 (UTC)
published: Fri Mar 24 2023 14:14:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト