ビデオの生成と編集では、テキスト駆動型の生成モデルが盛んです。ただし、高品質のビデオと関連性の高いテキストを含む適切なデータセットがないため、顔中心のテキストからビデオへの生成は依然として課題です。このペーパーでは、顔のテキストとビデオのペアの大規模で多様な高品質のデータセットである CelebV-Text を紹介し、顔のテキストからビデオへの生成タスクに関する研究を容易にします。 CelebV-Text は、多様なビジュアル コンテンツを含む 70,000 の野生の顔のビデオ クリップで構成され、それぞれが提案された半自動テキスト生成戦略を使用して生成された 20 のテキストとペアになっています。提供されるテキストは高品質で、静的属性と動的属性の両方を正確に説明しています。他のデータセットに対する CelebV-Text の優位性は、ビデオ、テキスト、およびテキストとビデオの関連性の包括的な統計分析によって実証されています。 CelebV-Text の有効性と可能性は、広範な自己評価を通じてさらに示されます。ベンチマークは、顔のテキストからビデオへの生成タスクの評価を標準化するための代表的な方法で構築されています。すべてのデータとモデルは公開されています。
Text-driven generation models are flourishing in video generation and editing. However, face-centric text-to-video generation remains a challenge due to the lack of a suitable dataset containing high-quality videos and highly relevant texts. This paper presents CelebV-Text, a large-scale, diverse, and high-quality dataset of facial text-video pairs, to facilitate research on facial text-to-video generation tasks. CelebV-Text comprises 70,000 in-the-wild face video clips with diverse visual content, each paired with 20 texts generated using the proposed semi-automatic text generation strategy. The provided texts are of high quality, describing both static and dynamic attributes precisely. The superiority of CelebV-Text over other datasets is demonstrated via comprehensive statistical analysis of the videos, texts, and text-video relevance. The effectiveness and potential of CelebV-Text are further shown through extensive self-evaluation. A benchmark is constructed with representative methods to standardize the evaluation of the facial text-to-video generation task. All data and models are publicly available.