arXiv reaDer
MUSIQ:マルチスケール画質トランスフォーマー
MUSIQ: Multi-scale Image Quality Transformer
画質評価(IQA)は、視覚体験を理解して改善するための重要な研究トピックです。現在の最先端のIQA手法は、畳み込みニューラルネットワーク(CNN)に基づいています。 CNNベースのモデルのパフォーマンスは、バッチトレーニングの固定形状の制約によって損なわれることがよくあります。これに対応するために、入力画像は通常、サイズが変更され、固定された形状にトリミングされるため、画質が低下します。これに対処するために、さまざまなサイズとアスペクト比のネイティブ解像度の画像を処理するマルチスケール画質トランスフォーマー(MUSIQ)を設計します。マルチスケールの画像表現により、提案された方法は、さまざまな粒度で画質をキャプチャできます。さらに、新しいハッシュベースの2D空間埋め込みとスケール埋め込みが、マルチスケール表現での位置埋め込みをサポートするために提案されています。実験結果は、私たちの方法がPaQ-2-PiQ、SPAQ、KonIQ-10kなどの複数の大規模IQAデータセットで最先端のパフォーマンスを達成できることを確認しています。
Image quality assessment (IQA) is an important research topic for understanding and improving visual experience. The current state-of-the-art IQA methods are based on convolutional neural networks (CNNs). The performance of CNN-based models is often compromised by the fixed shape constraint in batch training. To accommodate this, the input images are usually resized and cropped to a fixed shape, causing image quality degradation. To address this, we design a multi-scale image quality Transformer (MUSIQ) to process native resolution images with varying sizes and aspect ratios. With a multi-scale image representation, our proposed method can capture image quality at different granularities. Furthermore, a novel hash-based 2D spatial embedding and a scale embedding is proposed to support the positional embedding in the multi-scale representation. Experimental results verify that our method can achieve state-of-the-art performance on multiple large scale IQA datasets such as PaQ-2-PiQ, SPAQ and KonIQ-10k.
updated: Thu Aug 12 2021 23:36:22 GMT+0000 (UTC)
published: Thu Aug 12 2021 23:36:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト