arXiv reaDer
野外ビデオの品質評価
Quality Assessment of In-the-Wild Videos
  野生のビデオの品質評価は、参照ビデオや撮影の歪みがないため、難しい問題です。人間の視覚システムに関する知識は、野生のビデオの客観的な品質評価の方法を確立するのに役立ちます。この作業では、人間の視覚システムの2つの顕著な効果、つまりコンテンツ依存性と時間記憶効果がこの目的に使用できることを示します。両方の効果をディープニューラルネットワークに統合することにより、客観的な非参照ビデオ品質評価方法を提案します。コンテンツ依存性については、事前に学習された画像分類ニューラルネットワークからその固有のコンテンツ認識プロパティの特徴を抽出します。時間記憶効果の場合、長期依存性、特に時間ヒステリシスは、ゲート付き回帰ユニットと主観的に触発された時間プーリング層によりネットワークに統合されます。私たちの方法の性能を検証するために、公に入手可能な3つの公開ビデオ品質評価データベースで実験が行われます:それぞれKoNViD-1k、CVD2014、およびLIVE-Qualcomm。実験結果は、提案された方法が5つの最先端の方法を大幅に上回ることを示しています。具体的には、2番目に優れた方法VBLIINDSに比べて、12.39%、15.71%、15.45%、18.09%の全体的なパフォーマンスの向上です。それぞれ、SROCC、KROCC、PLCC、RMSE。さらに、アブレーション研究は、コンテンツ認識機能と一時記憶効果のモデリングの両方の重要な役割を検証します。このメソッドのPyTorch実装は、https://github.com/lidq92/VSFAで公開されています。
Quality assessment of in-the-wild videos is a challenging problem because of the absence of reference videos and shooting distortions. Knowledge of the human visual system can help establish methods for objective quality assessment of in-the-wild videos. In this work, we show two eminent effects of the human visual system, namely, content-dependency and temporal-memory effects, could be used for this purpose. We propose an objective no-reference video quality assessment method by integrating both effects into a deep neural network. For content-dependency, we extract features from a pre-trained image classification neural network for its inherent content-aware property. For temporal-memory effects, long-term dependencies, especially the temporal hysteresis, are integrated into the network with a gated recurrent unit and a subjectively-inspired temporal pooling layer. To validate the performance of our method, experiments are conducted on three publicly available in-the-wild video quality assessment databases: KoNViD-1k, CVD2014, and LIVE-Qualcomm, respectively. Experimental results demonstrate that our proposed method outperforms five state-of-the-art methods by a large margin, specifically, 12.39%, 15.71%, 15.45%, and 18.09% overall performance improvements over the second-best method VBLIINDS, in terms of SROCC, KROCC, PLCC and RMSE, respectively. Moreover, the ablation study verifies the crucial role of both the content-aware features and the modeling of temporal-memory effects. The PyTorch implementation of our method is released at https://github.com/lidq92/VSFA.
updated: Sat Oct 05 2019 14:31:25 GMT+0000 (UTC)
published: Thu Aug 01 2019 13:08:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト