arXiv reaDer
DisCoVQA:時間的歪み-ビデオ品質評価のためのコンテンツトランスフォーマー
DisCoVQA: Temporal Distortion-Content Transformers for Video Quality Assessment
フレーム間の時間的関係とビデオ品質評価(VQA)への影響は、既存の作品ではまだ十分に研究されていません。これらの関係は、ビデオ品質に2つの重要なタイプの効果をもたらします。まず、一部の時間的変動(揺れ、ちらつき、突然のシーン遷移など)は時間的歪みを引き起こし、品質の低下を招きますが、他の変動(意味のある出来事に関連するものなど)はそうではありません。第二に、人間の視覚システムは、コンテンツが異なるフレームに対して異なる注意を払うことが多く、その結果、全体的なビデオ品質に対する重要性が異なります。変圧器の卓越した時系列モデリング能力に基づいて、これら2つの問題に取り組むための斬新で効果的な変圧器ベースのVQA手法を提案します。時間的変動をより適切に区別し、時間的歪みをキャプチャするために、トランスベースの時空間歪み抽出(STDE)モジュールを設計します。時間的品質に注意を払うために、エンコーダーデコーダーのような時間的コンテンツトランスフォーマー(TCT)を提案します。また、このモジュールの学習効果と効率を向上させるために、TCTの入力長を短縮する機能の時間サンプリングを紹介します。 STDEとTCTで構成される、提案されたビデオ品質評価用の時間歪みコンテンツトランスフォーマー(DisCoVQA)は、追加の事前トレーニングデータセットがなく、最大10%優れた一般化能力なしで、いくつかのVQAベンチマークで最先端のパフォーマンスを実現します。既存の方法より。また、提案されたモデルの各部分の有効性を証明するために広範なアブレーション実験を実施し、提案されたモジュールがこれらの時間的問題をモデル化するという意図を達成したことを証明するための視覚化を提供します。コードと事前トレーニング済みの重みは後で公開します。
The temporal relationships between frames and their influences on video quality assessment (VQA) are still under-studied in existing works. These relationships lead to two important types of effects for video quality. Firstly, some temporal variations (such as shaking, flicker, and abrupt scene transitions) are causing temporal distortions and lead to extra quality degradations, while other variations (e.g. those related to meaningful happenings) do not. Secondly, the human visual system often has different attention to frames with different contents, resulting in their different importance to the overall video quality. Based on prominent time-series modeling ability of transformers, we propose a novel and effective transformer-based VQA method to tackle these two issues. To better differentiate temporal variations and thus capture the temporal distortions, we design a transformer-based Spatial-Temporal Distortion Extraction (STDE) module. To tackle with temporal quality attention, we propose the encoder-decoder-like temporal content transformer (TCT). We also introduce the temporal sampling on features to reduce the input length for the TCT, so as to improve the learning effectiveness and efficiency of this module. Consisting of the STDE and the TCT, the proposed Temporal Distortion-Content Transformers for Video Quality Assessment (DisCoVQA) reaches state-of-the-art performance on several VQA benchmarks without any extra pre-training datasets and up to 10% better generalization ability than existing methods. We also conduct extensive ablation experiments to prove the effectiveness of each part in our proposed model, and provide visualizations to prove that the proposed modules achieve our intention on modeling these temporal issues. We will publish our codes and pretrained weights later.
updated: Mon Jun 20 2022 15:31:27 GMT+0000 (UTC)
published: Mon Jun 20 2022 15:31:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト