arXiv reaDer
野生のビデオ品質評価のための堅牢なテキストプロンプトのセマンティック基準に向けて
Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment
自然の中で収集されたビデオの急増は、効果的なビデオ品質評価 (VQA) 方法論の開発を後押ししました。現代の監視されたオピニオン主導の VQA 戦略は、主に品質スコアに対する高価な人間の注釈からのトレーニングに依存しており、VQA データセットの規模と分布が制限され、その結果、これらのデータによって駆動される方法の不十分な一般化能力につながりました。一方、いくつかの手作りのゼロ ショット品質指標は、人間の意見からのトレーニングを必要としませんが、ビデオのセマンティクスを説明することができず、複雑で本物の歪み (ホワイト バランス、露出など) を理解し、評価するのに効果がありません。ビデオ内のセマンティック コンテンツの品質。これらの課題に対処するために、テキスト プロンプトのセマンティック アフィニティ品質インデックス (SAQI) とそのローカライズ バージョン (SAQI-Local) を導入し、Contrastive Language-Image Pre-training (CLIP) を使用して、テキスト プロンプトと視覚的特徴の間の親和性を確認し、人間の品質注釈に依存しないセマンティック品質の問題の包括的な検査。 SAQI を既存の低レベルのメトリクスと融合することにより、統合されたブラインド ビデオ品質インデックス (BVQI) とその改良版である BVQI-Local を提案します。これは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロ ショット インデックスを少なくとも 24% 上回っています。さらに、テキスト プロンプトと最終的なフュージョン ウェイトを共同で最適化する BVQI-Local の効率的な微調整スキームを考案し、一般的な意見主導の VQA メソッドと比較して、最先端のパフォーマンスと優れた一般化能力を実現します。包括的な分析を行って、個別の指標のさまざまな品質問題を調査し、設計の有効性と合理性を実証します。
The proliferation of videos collected during in-the-wild natural settings has pushed the development of effective Video Quality Assessment (VQA) methodologies. Contemporary supervised opinion-driven VQA strategies predominantly hinge on training from expensive human annotations for quality scores, which limited the scale and distribution of VQA datasets and consequently led to unsatisfactory generalization capacity of methods driven by these data. On the other hand, although several handcrafted zero-shot quality indices do not require training from human opinions, they are unable to account for the semantics of videos, rendering them ineffective in comprehending complex authentic distortions (e.g., white balance, exposure) and assessing the quality of semantic content within videos. To address these challenges, we introduce the text-prompted Semantic Affinity Quality Index (SAQI) and its localized version (SAQI-Local) using Contrastive Language-Image Pre-training (CLIP) to ascertain the affinity between textual prompts and visual features, facilitating a comprehensive examination of semantic quality concerns without the reliance on human quality annotations. By amalgamating SAQI with existing low-level metrics, we propose the unified Blind Video Quality Index (BVQI) and its improved version, BVQI-Local, which demonstrates unprecedented performance, surpassing existing zero-shot indices by at least 24% on all datasets. Moreover, we devise an efficient fine-tuning scheme for BVQI-Local that jointly optimizes text prompts and final fusion weights, resulting in state-of-the-art performance and superior generalization ability in comparison to prevalent opinion-driven VQA methods. We conduct comprehensive analyses to investigate different quality concerns of distinct indices, demonstrating the effectiveness and rationality of our design.
updated: Fri Apr 28 2023 08:06:05 GMT+0000 (UTC)
published: Fri Apr 28 2023 08:06:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト