ビデオの知覚品質を予測することを目的としたビデオ品質評価 (VQA) は、Facebook、TikTok、Kwai などのストリーミング メディア テクノロジーの急速な発展に伴い注目を集めています。他のシーケンスベースの視覚タスク (アクション認識など) と比較して、VQA はユーザー生成コンテンツ (UGC) ビデオで未解決の過小評価されている 2 つの課題に直面しています。まず、他のシーケンスベースのタスクでは表現に同等の重要性を持つより多くのフレームが必要となる一方で、深刻な歪み (ブロッキング、ぼやけなど) を含むいくつかのフレームがビデオ全体の知覚品質を決定することは珍しくありません。第 2 に、ビデオの知覚品質は、さまざまな歪みの継続時間と発生確率の違いにより、複数の歪み分布を示します。上記の課題を解決するために、品質に関連する疎な特徴をより効率的に抽出する Visual Quality Transformer (VQT) を提案します。方法論的には、フレーム間の時間的相関を分析することでキーフレームをサンプリングする Sparse Temporal Attendant (STA) が提案されており、これにより計算量が O(T^2) から O(T logT) に軽減されます。構造的には、マルチパスウェイ テンポラル ネットワーク (MPTN) は、異なる度合いのスパース性を持つ複数の STA モジュールを並行して利用し、ビデオ内に共存する歪みをキャプチャします。実験的には、VQT は、公開されている 3 つの非参照 VQA データセットにおいて、多くの最先端の手法よりも優れたパフォーマンスを示しています。さらに、VQT は、広く採用されている産業用アルゴリズム (VMAF および AVQT) に対して 4 つの完全参照 VQA データセットで優れたパフォーマンスを示します。
Video Quality Assessment (VQA), which aims to predict the perceptual quality of a video, has attracted raising attention with the rapid development of streaming media technology, such as Facebook, TikTok, Kwai, and so on. Compared with other sequence-based visual tasks (e.g., action recognition), VQA faces two under-estimated challenges unresolved in User Generated Content (UGC) videos. First, it is not rare that several frames containing serious distortions (e.g.,blocking, blurriness), can determine the perceptual quality of the whole video, while other sequence-based tasks require more frames of equal importance for representations. Second, the perceptual quality of a video exhibits a multi-distortion distribution, due to the differences in the duration and probability of occurrence for various distortions. In order to solve the above challenges, we propose Visual Quality Transformer (VQT) to extract quality-related sparse features more efficiently. Methodologically, a Sparse Temporal Attention (STA) is proposed to sample keyframes by analyzing the temporal correlation between frames, which reduces the computational complexity from O(T^2) to O(T logT). Structurally, a Multi-Pathway Temporal Network (MPTN) utilizes multiple STA modules with different degrees of sparsity in parallel, capturing co-existing distortions in a video. Experimentally, VQT demonstrates superior performance than many state-of-the-art methods in three public no-reference VQA datasets. Furthermore, VQT shows better performance in four full-reference VQA datasets against widely-adopted industrial algorithms (i.e., VMAF and AVQT).