arXiv reaDer
解きほぐされた寿命の顔の合成
Disentangled Lifespan Face Synthesis
寿命顔合成(LFS)モデルは、参照として1つのスナップショットのみを指定して、人の生涯の写実的な顔画像のセットを生成することを目的としています。ターゲット年齢コードが与えられた場合に生成された顔画像は、アイデンティティを維持しながら、形状とテクスチャの生物学的に妥当な変換によって反映される年齢に敏感であると予想されます。顔の形状とテクスチャの特性は、年齢とともに別々の高度に非線形な変換を受けるため、これは非常に困難です。最新のLFSモデルは、生成的敵対的ネットワーク(GAN)に基づいており、年齢コードの条件付き変換が潜在的な顔の表現に適用されます。彼らはGANの最近の進歩から大きな恩恵を受けています。ただし、潜在的な表現をテクスチャ、形状、および同一性の要因に明示的に解きほぐすことなく、同一性を維持しながら、テクスチャおよび形状の非線形の加齢に伴う変換をモデル化することは基本的に制限されます。この作業では、新しいLFSモデルを提案して、形状、テクスチャ、アイデンティティなどの主要な顔の特性を解きほぐし、固有の形状とテクスチャの年齢変換を効果的にモデル化できるようにします。これは、エンコーダとは別に形状、テクスチャ、アイデンティティの特徴を抽出することで実現されます。重要なことに、2つの変換モジュール(1つは条件付き畳み込みベース、もう1つはチャネルアテンションベース)は、それぞれ非線形形状およびテクスチャ特徴変換をモデル化するために設計されています。これは、彼らのかなり明確な老化プロセスに対応し、合成された画像が年齢に敏感であり、アイデンティティを維持することを保証するためです。広範な実験により、LFSモデルは最先端の代替モデルよりも明らかに優れていることが示されています。コードとデモは、プロジェクトのWebサイト(https://senhe.github.io/projects/iccv_2021_lifespan_face)で入手できます。
A lifespan face synthesis (LFS) model aims to generate a set of photo-realistic face images of a person's whole life, given only one snapshot as reference. The generated face image given a target age code is expected to be age-sensitive reflected by bio-plausible transformations of shape and texture, while being identity preserving. This is extremely challenging because the shape and texture characteristics of a face undergo separate and highly nonlinear transformations w.r.t. age. Most recent LFS models are based on generative adversarial networks (GANs) whereby age code conditional transformations are applied to a latent face representation. They benefit greatly from the recent advancements of GANs. However, without explicitly disentangling their latent representations into the texture, shape and identity factors, they are fundamentally limited in modeling the nonlinear age-related transformation on texture and shape whilst preserving identity. In this work, a novel LFS model is proposed to disentangle the key face characteristics including shape, texture and identity so that the unique shape and texture age transformations can be modeled effectively. This is achieved by extracting shape, texture and identity features separately from an encoder. Critically, two transformation modules, one conditional convolution based and the other channel attention based, are designed for modeling the nonlinear shape and texture feature transformations respectively. This is to accommodate their rather distinct aging processes and ensure that our synthesized images are both age-sensitive and identity preserving. Extensive experiments show that our LFS model is clearly superior to the state-of-the-art alternatives. Codes and demo are available on our project website: https://senhe.github.io/projects/iccv_2021_lifespan_face.
updated: Fri Aug 13 2021 11:24:24 GMT+0000 (UTC)
published: Thu Aug 05 2021 22:33:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト