arXiv reaDer
VMAFとそのバリエーション:統一されたVQAに向けて
VMAF And Variants: Towards A Unified VQA
ビデオ品質評価(VQA)は現在急成長しているテーマであり、完全参照(FR)の場合は成熟しますが、爆発的な参照なし(NR)の場合は困難です。サポートベクター回帰とフィードフォワードニューラルネットワークの両方を使用して、FRケースの一般的なVMAFビデオ品質評価アルゴリズムのバリアントを調査します。いくつかの異なる機能を使用して、同様の学習を使用して、それをNRの場合に拡張し、VQAの部分的に統合されたフレームワークを開発します。完全にトレーニングされると、VMAFなどのFRアルゴリズムはテストデータセットで非常によく機能し、PCCとSRCCで90%以上の一致に達します。ただし、実際のパフォーマンスを予測するために、データベースごとにゼロからトレーニング/テストを行います。 80/20のトレイン/テスト分割でも、PCCとSRCCの両方で平均約90%のパフォーマンスを達成し、改善されたモーション機能とより優れた回帰を使用して、VMAFよりも最大7〜9%向上します。さらに、参照を無視し、FRをNRとして扱い、統合の試みを部分的に正当化すると、まともなパフォーマンス(約75%)が得られます。真のNRの場合、最近の主要なアルゴリズムであるVIDEVAL、RAPIQUEと比較して複雑さを軽減しながら、3〜5%のパフォーマンスを実現します。さらに、機能の顕著性を分析する方法を開発し、VIDEVALとRAPIQUEの両方について、それらの機能の小さなサブセットがパフォーマンスの大部分を提供していると結論付けています。要するに、NRの主要な方法に対してトレーニングの複雑さを抑制し、特徴選択のための特徴の顕著性を解明しながら、FRのトレーニング可能性の改善を奨励することがわかります。
Video quality assessment (VQA) is now a fast-growing subject, maturing in the full reference (FR) case, yet challenging in the exploding no reference (NR) case. We investigate variants of the popular VMAF video quality assessment algorithm for the FR case, using both support vector regression and feedforward neural networks. We extend it to the NR case, using some different features but similar learning, to develop a partially unified framework for VQA. When fully trained, FR algorithms such as VMAF perform very well on test datasets, reaching 90%+ match in PCC and SRCC; but for predicting performance in the wild, we train/test from scratch for each database. With an 80/20 train/test split, we still achieve about 90% performance on average in both PCC and SRCC, with up to 7-9% gains over VMAF, using an improved motion feature and better regression. Moreover, we even get decent performance (about 75%) if we ignore the reference, treating FR as NR, partly justifying our attempts at unification. In the true NR case, we reduce complexity vs. leading recent algorithms VIDEVAL, RAPIQUE, yet achieve performance within 3-5%. Moreover, we develop a method to analyze the saliency of features, and conclude that for both VIDEVAL and RAPIQUE, a small subset of their features are providing the bulk of the performance. In short, we find encouraging improvements in trainability in FR, while constraining training complexity against leading methods in NR, elucidating the saliency of features for feature selection.
updated: Fri Oct 08 2021 16:16:23 GMT+0000 (UTC)
published: Sat Mar 13 2021 18:41:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト