arXiv reaDer
StyleLipSync: スタイルベースのパーソナライズされたリップシンク ビデオ生成
StyleLipSync: Style-based Personalized Lip-sync Video Generation
この論文では、スタイルベースのパーソナライズされたリップシンク ビデオ生成モデルである StyleLipSync を紹介します。このモデルは、任意のオーディオからアイデンティティにとらわれないリップ シンク ビデオを生成できます。任意のアイデンティティのビデオを生成するために、事前にトレーニングされた StyleGAN の意味的に豊富な潜在空間から表現力のあるリップ プライアを活用します。ここでは、線形変換を使用してビデオの一貫性を設計することもできます。以前のリップシンク方法とは対照的に、フレームごとに 3D パラメトリック メッシュ プレディクターを利用することで、マスクを動的に配置してフレーム全体の自然さを改善するポーズ認識マスキングを導入します。さらに、人固有の視覚情報を強化しながらリップシンクの一般化を維持する同期レギュラーを導入することにより、任意の人に数ショットのリップシンク適応方法を提案します。広範な実験により、モデルがゼロショット設定でも正確なリップシンク ビデオを生成し、提案された適応方法を通じて数秒間のターゲット ビデオを使用して見えない顔の特徴を強化できることが実証されました。プロジェクトページをご覧ください。
In this paper, we present StyleLipSync, a style-based personalized lip-sync video generative model that can generate identity-agnostic lip-synchronizing video from arbitrary audio. To generate a video of arbitrary identities, we leverage expressive lip prior from the semantically rich latent space of a pre-trained StyleGAN, where we can also design a video consistency with a linear transformation. In contrast to the previous lip-sync methods, we introduce pose-aware masking that dynamically locates the mask to improve the naturalness over frames by utilizing a 3D parametric mesh predictor frame by frame. Moreover, we propose a few-shot lip-sync adaptation method for an arbitrary person by introducing a sync regularizer that preserves lips-sync generalization while enhancing the person-specific visual information. Extensive experiments demonstrate that our model can generate accurate lip-sync videos even with the zero-shot setting and enhance characteristics of an unseen face using a few seconds of target video through the proposed adaptation method. Please refer to our project page.
updated: Sun Apr 30 2023 16:38:42 GMT+0000 (UTC)
published: Sun Apr 30 2023 16:38:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト