顔の操作は、Generative Adversarial Networksの繁栄により、目覚ましい進歩を見せています。ただし、構造とテクスチャを制御することが難しいため、特に高解像度での極端な操作のために、ポーズとエクスプレッションを同時にモデル化することは困難です。この論文では、顔の操作を、境界予測段階と絡み合っていない顔合成段階という2つの相関する段階に簡略化する新しいフレームワークを提案します。第一段階では、境界画像を介してポーズと表情を共同でモデル化します。具体的には、条件付きエンコーダー/デコーダーネットワークを使用して、半教師付き方法でターゲットの顔の境界画像を予測します。予測パフォーマンスを改善するために、ポーズと式の推定器が導入されています。第2段階では、予測された境界画像と入力された顔画像が、それぞれ2つのエンコーダネットワークによって構造とテクスチャの潜在空間にエンコードされます。潜在的な空間のもつれを解くために、プロキシネットワークと機能のしきい値の損失がさらに課されます。さらに、メソッドの有効性を検証するための高解像度の顔操作データベースがないため、新しい高品質のマルチビュー顔(MVF-HQ)データベースを収集します。さまざまなポーズ、表情、イルミネーションを持つ479のアイデンティティからの6000x4000の解像度で120,283枚の画像が含まれています。 MVF-HQは、公開されている高解像度の顔操作データベースよりも規模が大きく、解像度がはるかに高くなっています。 MVF-HQは間もなくリリースされ、顔の操作の進歩が進みます。 4つのデータベースでの定性的および定量的実験は、私たちの方法が合成品質を劇的に向上させることを示しています。
Face manipulation has shown remarkable advances with the flourish of Generative Adversarial Networks. However, due to the difficulties of controlling structures and textures, it is challenging to model poses and expressions simultaneously, especially for the extreme manipulation at high-resolution. In this paper, we propose a novel framework that simplifies face manipulation into two correlated stages: a boundary prediction stage and a disentangled face synthesis stage. The first stage models poses and expressions jointly via boundary images. Specifically, a conditional encoder-decoder network is employed to predict the boundary image of the target face in a semi-supervised way. Pose and expression estimators are introduced to improve the prediction performance. In the second stage, the predicted boundary image and the input face image are encoded into the structure and the texture latent space by two encoder networks, respectively. A proxy network and a feature threshold loss are further imposed to disentangle the latent space. Furthermore, due to the lack of high-resolution face manipulation databases to verify the effectiveness of our method, we collect a new high-quality Multi-View Face (MVF-HQ) database. It contains 120,283 images at 6000x4000 resolution from 479 identities with diverse poses, expressions, and illuminations. MVF-HQ is much larger in scale and much higher in resolution than publicly available high-resolution face manipulation databases. We will release MVF-HQ soon to push forward the advance of face manipulation. Qualitative and quantitative experiments on four databases show that our method dramatically improves the synthesis quality.