客観的な画質評価は、特定の画像の品質を自動的に測定することを目的とした難しい作業です。参照画像の可用性に応じて、それぞれ完全参照タスクと非参照IQAタスクがあります。ほとんどの深層学習アプローチは、畳み込みニューラルネットワークによって抽出された深層特徴からの回帰を使用します。 FRタスクの場合、別のオプションは、深い特徴の統計的比較を行うことです。これらすべての方法で、非ローカル情報は通常無視されます。さらに、FRタスクとNRタスクの関係についてはあまり検討されていません。コンテキスト情報のモデリングにおけるトランスフォーマーの最近の成功に動機付けられて、CNNバックボーンとトランスフォーマーエンコーダーを利用して特徴を抽出する統合IQAフレームワークを提案します。提案されたフレームワークは、FRモードとNRモードの両方と互換性があり、共同トレーニングスキームを可能にします。 3つの標準IQAデータセット、つまりLIVE、CSIQ、TID2013、およびKONIQ-10Kでの評価実験は、提案されたモデルが最先端のFRパフォーマンスを達成できることを示しています。さらに、同等のNRパフォーマンスが広範な実験で達成され、その結果は、NRパフォーマンスが共同トレーニングスキームによって活用できることを示しています。
Objective image quality evaluation is a challenging task, which aims to measure the quality of a given image automatically. According to the availability of the reference images, there are Full-Reference and No-Reference IQA tasks, respectively. Most deep learning approaches use regression from deep features extracted by Convolutional Neural Networks. For the FR task, another option is conducting a statistical comparison on deep features. For all these methods, non-local information is usually neglected. In addition, the relationship between FR and NR tasks is less explored. Motivated by the recent success of transformers in modeling contextual information, we propose a unified IQA framework that utilizes CNN backbone and transformer encoder to extract features. The proposed framework is compatible with both FR and NR modes and allows for a joint training scheme. Evaluation experiments on three standard IQA datasets, i.e., LIVE, CSIQ and TID2013, and KONIQ-10K, show that our proposed model can achieve state-of-the-art FR performance. In addition, comparable NR performance is achieved in extensive experiments, and the results show that the NR performance can be leveraged by the joint training scheme.