顔画像のもつれを解く表現を学習するために、デュアルエンコーダデコーダベースの生成的敵対ネットワーク(DED-GAN)を提示します。提案された方法では、ジェネレーターとディスクリミネーターの両方が、ディープエンコーダーデコーダーアーキテクチャをバックボーンとして設計されています。より具体的には、エンコーダーデコーダー構造化ジェネレーターを使用してポーズのもつれを解いた顔の表現を学習し、エンコーダーデコーダー構造化弁別器を使用して、リアル/フェイク分類、顔の再構成、アイデンティティの決定、および顔のポーズの推定を行います。識別器の出力でワッサーシュタイン距離によって定義される追加のピクセル単位の損失を最小化することにより、提案されたネットワークアーキテクチャをさらに改善し、敵対的なフレームワークをよりよく訓練できるようにします。さらに、より豊富なポーズ情報をモデルに注入するために、既存の文献では顔のポーズの変化を離散ではなく連続と見なします。姿勢推定タスクは回帰問題として定式化され、姿勢変動からアイデンティティ情報を解きほぐします。提案されたネットワークは、ポーズに依存しない顔認識(PIFR)およびポーズ全体の顔合成のタスクで評価されます。いくつかの管理された野生のベンチマークデータセットで行われた広範囲の定量的および定性的評価は、提案されたDED-GANメソッドが最先端のアプローチより優れていることを示しています。
To learn disentangled representations of facial images, we present a Dual Encoder-Decoder based Generative Adversarial Network (DED-GAN). In the proposed method, both the generator and discriminator are designed with deep encoder-decoder architectures as their backbones. To be more specific, the encoder-decoder structured generator is used to learn a pose disentangled face representation, and the encoder-decoder structured discriminator is tasked to perform real/fake classification, face reconstruction, determining identity and estimating face pose. We further improve the proposed network architecture by minimising the additional pixel-wise loss defined by the Wasserstein distance at the output of the discriminator so that the adversarial framework can be better trained. Additionally, we consider face pose variation to be continuous, rather than discrete in existing literature, to inject richer pose information into our model. The pose estimation task is formulated as a regression problem, which helps to disentangle identity information from pose variations. The proposed network is evaluated on the tasks of pose-invariant face recognition (PIFR) and face synthesis across poses. An extensive quantitative and qualitative evaluation carried out on several controlled and in-the-wild benchmarking datasets demonstrates the superiority of the proposed DED-GAN method over the state-of-the-art approaches.