arXiv reaDer
適応潜在表現学習によるエンドツーエンドの顔交換
End-to-end Face-swapping via Adaptive Latent Representation Learning
StyleGAN の優れたパフォーマンスを最大限に活用して、スタイル転送ベースの顔交換方法が最近広く研究されています。ただし、これらの研究では、顔のスワッピングを成功させるために個別の顔のセグメンテーションとブレンディングのモジュールが必要であり、これらの研究で操作された潜在コードの固定された選択は無謀であり、顔のスワッピングの品質、一般化可能性、および実用性が低下します。この論文では、適応潜在表現学習による高解像度と属性保存の顔交換のための、斬新でエンドツーエンドの統合フレームワークを提案します。具体的には、最初に、基礎となる特徴抽出ネットワークを共有して顔領域の認識と顔のエンコードを同時に完了することにより、マルチタスクのデュアルスペース顔エンコーダーを設計します。このエンコーダーを使用すると、顔のポーズと属性を個別に制御できるため、顔のスワッピングの品質が向上します。次に、顔属性と潜在コードの間のマッピングを適応的に学習し、顔属性の保持を改善するために効果的な潜在コードを選択するための適応潜在コードスワッピングモジュールを提案します。最後に、StyleGAN2 によって生成された最初の顔スワップ画像は、エンコーダによって生成された顔領域マスクとブレンドされ、背景のぼやけの問題に対処します。顔の認識とブレンドをエンドツーエンドのトレーニングおよびテストプロセスに統合するフレームワークは、セグメンテーションマスクなしで野生の顔で非常に現実的な顔の交換を実現できます。実験結果は、最先端の方法よりも優れたパフォーマンスを示しています。
Taking full advantage of the excellent performance of StyleGAN, style transfer-based face swapping methods have been extensively investigated recently. However, these studies require separate face segmentation and blending modules for successful face swapping, and the fixed selection of the manipulated latent code in these works is reckless, thus degrading face swapping quality, generalizability, and practicability. This paper proposes a novel and end-to-end integrated framework for high resolution and attribute preservation face swapping via Adaptive Latent Representation Learning. Specifically, we first design a multi-task dual-space face encoder by sharing the underlying feature extraction network to simultaneously complete the facial region perception and face encoding. This encoder enables us to control the face pose and attribute individually, thus enhancing the face swapping quality. Next, we propose an adaptive latent codes swapping module to adaptively learn the mapping between the facial attributes and the latent codes and select effective latent codes for improved retention of facial attributes. Finally, the initial face swapping image generated by StyleGAN2 is blended with the facial region mask generated by our encoder to address the background blur problem. Our framework integrating facial perceiving and blending into the end-to-end training and testing process can achieve high realistic face-swapping on wild faces without segmentation masks. Experimental results demonstrate the superior performance of our approach over state-of-the-art methods.
updated: Tue Mar 07 2023 19:16:20 GMT+0000 (UTC)
published: Tue Mar 07 2023 19:16:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト