野外ビデオの急増により、ビデオ品質評価 (VQA) の問題が大幅に拡大しました。通常、限られた種類の歪みに焦点を当てた初期の定義とは異なり、野外ビデオでの VQA は、さまざまな歪みや多様なコンテンツなどの複雑な要因の影響を受ける可能性があるため、特に困難です。主観的な研究により、これらのビデオの全体的な品質スコアが収集されていますが、抽象的な品質スコアが特定の要素とどのように関連しているかは依然として不明瞭であり、VQA 手法によるより具体的な品質評価 (ビデオの鮮明さなど) の妨げとなっています。この問題を解決するために、私たちは 4,543 本の実際のビデオについて、キャプチャ内の本物の歪み (モーション ブラー、ノイズ、フリッカーなど)、圧縮や送信によってもたらされるエラーなど、品質関連の 13 の側面に関する 200 万を超える意見を収集しました。 、および意味論的な内容と美的問題(構成、カメラの軌道など)に関するより高いレベルの経験を利用して、多次元マクスウェルデータベースを確立します。具体的には、被験者に各次元についてポジティブ、ネガティブ、神経的選択の中からラベルを付けるよう依頼します。これらの説明レベルの意見により、特定の品質要素と抽象的な主観的な品質評価との関係を測定したり、VQA アルゴリズムのさまざまなカテゴリを各次元でベンチマークして、その長所と短所をより包括的に分析したりすることができます。さらに、我々は、分析で観察された重要な品質問題をより適切に捕捉するために、ビジョン言語基盤モデル CLIP を変更する言語プロンプト VQA アプローチである MaxVQA を提案します。 MaxVQA は、あらゆる次元における最先端の精度と、既存のデータセットに対する優れた一般化能力により、さまざまな特定の品質要素と最終的な品質スコアを共同で評価できます。コードとデータは https://github.com/VQAssessment/MaxVQA で入手できます。
The proliferation of in-the-wild videos has greatly expanded the Video Quality Assessment (VQA) problem. Unlike early definitions that usually focus on limited distortion types, VQA on in-the-wild videos is especially challenging as it could be affected by complicated factors, including various distortions and diverse contents. Though subjective studies have collected overall quality scores for these videos, how the abstract quality scores relate with specific factors is still obscure, hindering VQA methods from more concrete quality evaluations (e.g. sharpness of a video). To solve this problem, we collect over two million opinions on 4,543 in-the-wild videos on 13 dimensions of quality-related factors, including in-capture authentic distortions (e.g. motion blur, noise, flicker), errors introduced by compression and transmission, and higher-level experiences on semantic contents and aesthetic issues (e.g. composition, camera trajectory), to establish the multi-dimensional Maxwell database. Specifically, we ask the subjects to label among a positive, a negative, and a neural choice for each dimension. These explanation-level opinions allow us to measure the relationships between specific quality factors and abstract subjective quality ratings, and to benchmark different categories of VQA algorithms on each dimension, so as to more comprehensively analyze their strengths and weaknesses. Furthermore, we propose the MaxVQA, a language-prompted VQA approach that modifies vision-language foundation model CLIP to better capture important quality issues as observed in our analyses. The MaxVQA can jointly evaluate various specific quality factors and final quality scores with state-of-the-art accuracy on all dimensions, and superb generalization ability on existing datasets. Code and data available at https://github.com/VQAssessment/MaxVQA.