きめの細かい表情は通常、他の顔の属性と絡み合っているため、2つの対になっていない画像間の顔の表情の転送は困難な問題です。ほとんどの既存の方法は、発現伝達を発現操作のアプリケーションとして扱い、予測されたグローバルな発現、ランドマーク、またはアクションユニット(AU)をガイダンスとして使用します。ただし、予測が不正確になる可能性があるため、きめ細かい表現を転送するパフォーマンスが制限されます。中間推定ガイダンスを使用する代わりに、2つの不対入力画像をスワップされた表現を持つ2つの合成画像に直接マッピングすることにより、顔の表情を明示的に転送することを提案します。具体的には、AUがきめ細かい表現の詳細を意味的に記述することを考慮して、入力画像をAU関連機能とAUフリー機能の2種類のきめ細かい表現に解きほぐすための新しいマルチクラス敵対トレーニング方法を提案します。次に、AUフリーの機能とスワップされたAU関連の機能を組み合わせることで、IDとスワップされた式が保持された新しい画像を合成できます。さらに、対になっていない入力の信頼できる式転送結果を取得するために、スワップ整合性損失を導入して、合成画像と自己再構成画像を区別できないようにします。広範な実験により、私たちのアプローチは、アイデンティティやポーズなどの他の属性を維持しながら、きめ細かい表現を転送するための最先端の表現操作方法よりも優れていることが示されています。
Facial expression transfer between two unpaired images is a challenging problem, as fine-grained expression is typically tangled with other facial attributes. Most existing methods treat expression transfer as an application of expression manipulation, and use predicted global expression, landmarks or action units (AUs) as a guidance. However, the prediction may be inaccurate, which limits the performance of transferring fine-grained expression. Instead of using an intermediate estimated guidance, we propose to explicitly transfer facial expression by directly mapping two unpaired input images to two synthesized images with swapped expressions. Specifically, considering AUs semantically describe fine-grained expression details, we propose a novel multi-class adversarial training method to disentangle input images into two types of fine-grained representations: AU-related feature and AU-free feature. Then, we can synthesize new images with preserved identities and swapped expressions by combining AU-free features with swapped AU-related features. Moreover, to obtain reliable expression transfer results of the unpaired input, we introduce a swap consistency loss to make the synthesized images and self-reconstructed images indistinguishable. Extensive experiments show that our approach outperforms the state-of-the-art expression manipulation methods for transferring fine-grained expressions while preserving other attributes including identity and pose.