arXiv reaDer
アテンションはCNNの見栄えを良くする:アテンションベースのハイブリッド画質評価ネットワーク
Attentions Help CNNs See Better: Attention-based Hybrid Image Quality Assessment Network
画質評価(IQA)アルゴリズムは、画質に対する人間の知覚を定量化することを目的としています。残念ながら、一見リアルなテクスチャで生成的敵対的ネットワーク(GAN)によって生成された歪み画像を評価すると、パフォーマンスが低下します。この作業では、この不適応はIQAモデルのバックボーンにあると推測します。パッチレベルの予測方法では、独立した画像パッチを入力として使用してスコアを個別に計算しますが、画像パッチ間の空間関係モデリングはありません。したがって、この課題に対処し、GANベースのIQAタスクのパフォーマンスを向上させるために、注意ベースのハイブリッド画質評価ネットワーク(AHIQ)を提案します。まず、特徴抽出用のビジョントランスフォーマー(ViT)ブランチと畳み込みニューラルネットワーク(CNN)ブランチを含む2ブランチアーキテクチャを採用します。ハイブリッドアーキテクチャは、ViTによってキャプチャされた画像パッチ間の相互作用情報とCNNからのローカルテクスチャの詳細を組み合わせたものです。浅いCNNの特徴を視覚的に目立つ領域により焦点を合わせるために、ViTブランチからのセマンティック情報の助けを借りて変形可能な畳み込みが適用されます。最後に、パッチごとのスコア予測モジュールを使用して、最終スコアを取得します。実験は、私たちのモデルが4つの標準IQAデータセットで最先端の方法を上回り、AHIQがNTIRE 2022知覚画像品質評価チャレンジのフルリファレンス(FR)トラックで1位にランクされていることを示しています。
Image quality assessment (IQA) algorithm aims to quantify the human perception of image quality. Unfortunately, there is a performance drop when assessing the distortion images generated by generative adversarial network (GAN) with seemingly realistic texture. In this work, we conjecture that this maladaptation lies in the backbone of IQA models, where patch-level prediction methods use independent image patches as input to calculate their scores separately, but lack spatial relationship modeling among image patches. Therefore, we propose an Attention-based Hybrid Image Quality Assessment Network (AHIQ) to deal with the challenge and get better performance on the GAN-based IQA task. Firstly, we adopt a two-branch architecture, including a vision transformer (ViT) branch and a convolutional neural network (CNN) branch for feature extraction. The hybrid architecture combines interaction information among image patches captured by ViT and local texture details from CNN. To make the features from shallow CNN more focused on the visually salient region, a deformable convolution is applied with the help of semantic information from the ViT branch. Finally, we use a patch-wise score prediction module to obtain the final score. The experiments show that our model outperforms the state-of-the-art methods on four standard IQA datasets and AHIQ ranked first on the Full Reference (FR) track of the NTIRE 2022 Perceptual Image Quality Assessment Challenge.
updated: Fri Apr 22 2022 03:59:18 GMT+0000 (UTC)
published: Fri Apr 22 2022 03:59:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト