arXiv reaDer
セマンティックフェイス編集のためのGANの潜在スペースの解釈
Interpreting the Latent Space of GANs for Semantic Face Editing
 高忠実度画像合成におけるジェネレーティブアドバーサリネットワーク(GAN)の最近の進歩にもかかわらず、GANがランダム分布からサンプリングされた潜在コードを写実的な画像にマッピングする方法について十分な理解がありません。以前の研究では、GANによって学習された潜在空間は分散表現に従うと想定していますが、ベクトル算術現象を観察しています。この作業では、GANによって学習された潜在的なセマンティクスを解釈することにより、セマンティックな顔編集のためのInterFaceGANと呼ばれる新しいフレームワークを提案します。このフレームワークでは、顔の合成のために、GANの潜在空間でさまざまなセマンティクスがどのようにエンコードされるかについて詳細な調査を行います。よく訓練された生成モデルの潜在コードは、線形変換後に実際にもつれのない表現を学習することがわかります。さまざまなセマンティクス間の絡み合いを調査し、絡み合ったセマンティクスと部分空間投影を分離して、顔の属性をより正確に制御できるようにします。性別、年齢、表情、眼鏡の存在を操作するだけでなく、顔のポーズを変えたり、GANモデルによって誤って生成されたアーティファクトを修正したりすることもできます。提案された方法は、GAN反転法または一部のエンコーダ関連モデルと組み合わせると、実際の画像操作を実現するためにさらに適用されます。広範な結果は、顔を自然に合成することを学ぶことで、もつれがなく制御可能な顔属性表現をもたらすことを示唆しています。
Despite the recent advance of Generative Adversarial Networks (GANs) in high-fidelity image synthesis, there lacks enough understanding of how GANs are able to map a latent code sampled from a random distribution to a photo-realistic image. Previous work assumes the latent space learned by GANs follows a distributed representation but observes the vector arithmetic phenomenon. In this work, we propose a novel framework, called InterFaceGAN, for semantic face editing by interpreting the latent semantics learned by GANs. In this framework, we conduct a detailed study on how different semantics are encoded in the latent space of GANs for face synthesis. We find that the latent code of well-trained generative models actually learns a disentangled representation after linear transformations. We explore the disentanglement between various semantics and manage to decouple some entangled semantics with subspace projection, leading to more precise control of facial attributes. Besides manipulating gender, age, expression, and the presence of eyeglasses, we can even vary the face pose as well as fix the artifacts accidentally generated by GAN models. The proposed method is further applied to achieve real image manipulation when combined with GAN inversion methods or some encoder-involved models. Extensive results suggest that learning to synthesize faces spontaneously brings a disentangled and controllable facial attribute representation.
updated: Tue Mar 31 2020 10:24:42 GMT+0000 (UTC)
published: Thu Jul 25 2019 01:30:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト