arXiv reaDer
VFHQ:ビデオフェイス超解像のための高品質データセットとベンチマーク
VFHQ: A High-Quality Dataset and Benchmark for Video Face Super-Resolution
既存のビデオ顔超解像(VFSR)メソッドのほとんどは、話者識別用に特別に設計されたVoxCeleb1でトレーニングおよび評価されており、このデータセットのフレームは低品質です。結果として、このデータセットでトレーニングされたVFSRモデルは、視覚的に満足のいく結果を出力できません。このホワイトペーパーでは、さまざまなインタビューシナリオの16,000を超える忠実度の高いクリップを含む、高品質のビデオ顔データセット(VFHQ)を収集するための自動でスケーラブルなパイプラインを開発します。 VFHQの必要性を検証するために、さらに実験を行い、VFHQデータセットでトレーニングされたVFSRモデルが、VoxCeleb1でトレーニングされたモデルよりもシャープなエッジと細かいテクスチャで結果を生成できることを示します。さらに、時間情報がビデオの一貫性の問題を排除し、視覚的なパフォーマンスをさらに向上させる上で極めて重要な役割を果たすことを示します。 VFHQに基づいて、バイキュービックおよびブラインド設定でのいくつかの最先端アルゴリズムのベンチマーク調査を分析します。プロジェクトページを参照してください:https://liangbinxie.github.io/projects/vfhq
Most of the existing video face super-resolution (VFSR) methods are trained and evaluated on VoxCeleb1, which is designed specifically for speaker identification and the frames in this dataset are of low quality. As a consequence, the VFSR models trained on this dataset can not output visual-pleasing results. In this paper, we develop an automatic and scalable pipeline to collect a high-quality video face dataset (VFHQ), which contains over 16,000 high-fidelity clips of diverse interview scenarios. To verify the necessity of VFHQ, we further conduct experiments and demonstrate that VFSR models trained on our VFHQ dataset can generate results with sharper edges and finer textures than those trained on VoxCeleb1. In addition, we show that the temporal information plays a pivotal role in eliminating video consistency issues as well as further improving visual performance. Based on VFHQ, by analyzing the benchmarking study of several state-of-the-art algorithms under bicubic and blind settings. See our project page: https://liangbinxie.github.io/projects/vfhq
updated: Fri May 06 2022 16:31:57 GMT+0000 (UTC)
published: Fri May 06 2022 16:31:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト