ユーザー生成コンテンツ(UGC)ビデオの品質評価は、エンドユーザーの視聴体験を保証する上で重要な役割を果たします。以前のUGCビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためにUGCビデオのフレームレベルの特徴を抽出します。これらのタスクとUGCVQAタスクの間でシフトします。この論文では、非常にシンプルで効果的なUGC VQAモデルを提案します。このモデルは、エンドツーエンドの空間特徴抽出ネットワークをトレーニングして、ビデオフレームの生のピクセルから品質を意識した空間特徴表現を直接学習することでこの問題に対処しようとします。 。また、モーションフィーチャを抽出して、空間フィーチャではモデル化できない時間関連の歪みを測定します。提案されたモデルは、非常にまばらなフレームを利用して空間的特徴を抽出し、非常に低い空間分解能で密なフレーム(すなわちビデオチャンク)を利用して動きの特徴を抽出するため、計算の複雑さが低くなります。より優れた品質認識機能により、単純な多層パーセプトロン(MLP)ネットワークのみを使用して、それらをチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオレベルの品質スコアを取得します。さらに、マルチスケールの重みが人間の視覚系のコントラスト感度関数から取得される、さまざまな空間解像度にわたるVQAの問題を解決するためのマルチスケール品質融合戦略を紹介します。実験結果は、提案されたモデルが5つの人気のあるUGC VQAデータベースで最高のパフォーマンスを達成することを示しており、提案されたモデルの有効性を示しています。コードは公開されます。
Quality assessment for User Generated Content (UGC) videos plays an important role in ensuring the viewing experience of end-users. Previous UGC video quality assessment (VQA) studies either use the image recognition model or the image quality assessment (IQA) models to extract frame-level features of UGC videos for quality regression, which are regarded as the sub-optimal solutions because of the domain shifts between these tasks and the UGC VQA task. In this paper, we propose a very simple but effective UGC VQA model, which tries to address this problem by training an end-to-end spatial feature extraction network to directly learn the quality-aware spatial feature representation from raw pixels of the video frames. We also extract the motion features to measure the temporal-related distortions that the spatial features cannot model. The proposed model utilizes very sparse frames to extract spatial features and dense frames (i.e. the video chunk) with a very low spatial resolution to extract motion features, which thereby has low computational complexity. With the better quality-aware features, we only use the simple multilayer perception layer (MLP) network to regress them into the chunk-level quality scores, and then the temporal average pooling strategy is adopted to obtain the video-level quality score. We further introduce a multi-scale quality fusion strategy to solve the problem of VQA across different spatial resolutions, where the multi-scale weights are obtained from the contrast sensitivity function of the human visual system. The experimental results show that the proposed model achieves the best performance on five popular UGC VQA databases, which demonstrates the effectiveness of the proposed model. The code will be publicly available.