Towards Disentangling Latent Space for Unsupervised Semantic Face Editing
StyleGANで生成された画像の顔の属性は潜在空間に絡み合っているため、特定の属性を他の属性に影響を与えずに独立して制御することは非常に困難です。教師あり属性の編集には注釈付きのトレーニングデータが必要ですが、これは取得が難しく、編集可能な属性をラベル付きの属性に制限します。したがって、解きほぐされた潜在空間での教師なし属性編集は、きちんとした用途の広いセマンティック顔編集を実行するための鍵となります。この論文では、教師なしセマンティック顔編集のために潜在空間を解きほぐすために、重み分解と直交正則化を備えた構造-テクスチャ独立アーキテクチャ(STIA-WO)と呼ばれる新しい手法を紹介します。 STIA-WOをGANに適用することにより、STGAN-WOと呼ばれるStyleGANを開発しました。これは、スタイルベクトルを利用して重み分解を実行し、完全に制御可能な重み行列を構築して画像合成を調整し、直交正規化を使用してスタイルベクトルの各エントリを確保します。 1つの独立した特徴マトリックスのみを制御します。顔の属性をさらに解きほぐすために、STGAN-WOは、2つの独立して同一に分散された(iid)潜在ベクトルを利用して、解きほぐされた方法でテクスチャと構造コンポーネントの合成を制御する、構造テクスチャに依存しないアーキテクチャを導入します。教師なしセマンティック編集は、粗いレイヤーの潜在コードを直交方向に沿って移動してテクスチャ関連の属性を変更するか、細かいレイヤーの潜在コードを変更して構造関連の属性を操作することで実現されます。新しいSTGAN-WOが最先端の方法よりも優れた属性編集を実現できることを示す実験結果を提示します。
Facial attributes in StyleGAN generated images are entangled in the latent space which makes it very difficult to independently control a specific attribute without affecting the others. Supervised attribute editing requires annotated training data which is difficult to obtain and limits the editable attributes to those with labels. Therefore, unsupervised attribute editing in an disentangled latent space is key to performing neat and versatile semantic face editing. In this paper, we present a new technique termed Structure-Texture Independent Architecture with Weight Decomposition and Orthogonal Regularization (STIA-WO) to disentangle the latent space for unsupervised semantic face editing. By applying STIA-WO to GAN, we have developed a StyleGAN termed STGAN-WO which performs weight decomposition through utilizing the style vector to construct a fully controllable weight matrix to regulate image synthesis, and employs orthogonal regularization to ensure each entry of the style vector only controls one independent feature matrix. To further disentangle the facial attributes, STGAN-WO introduces a structure-texture independent architecture which utilizes two independently and identically distributed (i.i.d.) latent vectors to control the synthesis of the texture and structure components in a disentangled way. Unsupervised semantic editing is achieved by moving the latent code in the coarse layers along its orthogonal directions to change texture related attributes or changing the latent code in the fine layers to manipulate structure related ones. We present experimental results which show that our new STGAN-WO can achieve better attribute editing than state of the art methods.
updated: Mon Jul 19 2021 01:21:52 GMT+0000 (UTC)
published: Thu Nov 05 2020 03:29:24 GMT+0000 (UTC)
