arXiv reaDer
HyperReenact: 顔のリファインとリターゲットを共同学習することによるワンショットの再現
HyperReenact: One-Shot Reenactment via Jointly Learning to Refine and Retarget Faces
この論文では、ターゲットの顔のポーズによって駆動される、ソース アイデンティティのリアルなトーキング ヘッド画像を生成することを目的とした、HyperReenact と呼ばれるニューラル顔再現手法を紹介します。既存の最先端の顔再現手法は、リアルな顔画像の合成を学習する制御可能な生成モデルをトレーニングしますが、特に頭のポーズが極端に変化するという困難な条件下では、重大な視覚的アーティファクトが発生しやすい再現顔が生成されたり、ソースのアイデンティティ特性をより適切に保存するために高価な数ショットの微調整が必​​要になったりします。私たちは、事前トレーニング済み StyleGAN2 ジェネレーターのフォトリアリスティックな生成能力ともつれの解かれた特性を活用することで、これらの制限に対処することを提案します。最初に実際の画像をその潜在空間に反転し、次にハイパーネットワークを使用して (i) ソース ID 特性の洗練と (ii) 顔のポーズの再ターゲットを実行し、この方法で通常アーティファクトを生成する外部編集方法への依存を排除​​します。私たちの方法は、ワンショット設定 (つまり、単一のソース フレームを使用) で動作し、被写体固有の微調整を必要とせずに、複数の被写体の再現を可能にします。 VoxCeleb1 および VoxCeleb2 の標準ベンチマークでいくつかの最先端技術と量的および定性の両方で私たちの方法を比較し、アーティファクトのない画像を生成する際の私たちのアプローチの優位性を実証し、極端な頭姿勢変化の下でも顕著な堅牢性を示します。コードと事前トレーニングされたモデルは https://github.com/StelaBou/HyperReenact で公開されています。
In this paper, we present our method for neural face reenactment, called HyperReenact, that aims to generate realistic talking head images of a source identity, driven by a target facial pose. Existing state-of-the-art face reenactment methods train controllable generative models that learn to synthesize realistic facial images, yet producing reenacted faces that are prone to significant visual artifacts, especially under the challenging condition of extreme head pose changes, or requiring expensive few-shot fine-tuning to better preserve the source identity characteristics. We propose to address these limitations by leveraging the photorealistic generation ability and the disentangled properties of a pretrained StyleGAN2 generator, by first inverting the real images into its latent space and then using a hypernetwork to perform: (i) refinement of the source identity characteristics and (ii) facial pose re-targeting, eliminating this way the dependence on external editing methods that typically produce artifacts. Our method operates under the one-shot setting (i.e., using a single source frame) and allows for cross-subject reenactment, without requiring any subject-specific fine-tuning. We compare our method both quantitatively and qualitatively against several state-of-the-art techniques on the standard benchmarks of VoxCeleb1 and VoxCeleb2, demonstrating the superiority of our approach in producing artifact-free images, exhibiting remarkable robustness even under extreme head pose changes. We make the code and the pretrained models publicly available at: https://github.com/StelaBou/HyperReenact .
updated: Thu Jul 20 2023 11:59:42 GMT+0000 (UTC)
published: Thu Jul 20 2023 11:59:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト