arXiv reaDer
GIF:生成的解釈可能な顔
GIF: Generative Interpretable Faces
表現力豊かな人間の顔の写実的な視覚化とアニメーションは、長年の課題でした。 3D顔モデリング手法は、パラメトリック制御を提供しますが、非現実的な画像を生成します。一方、GAN(Generative Adversarial Networks)のような生成2Dモデルは、写実的な顔画像を出力しますが、明示的な制御はありません。最近の方法は、教師なしの方法でさまざまな要因を解きほぐすことを試みるか、事前に訓練されたモデルに事後制御を追加することによって、部分的な制御を獲得します。ただし、無条件のGANは、後で元に戻すのが難しい要因を巻き込む可能性があります。生成プロセスでの解きほぐしを促進するために、事前定義された制御パラメーターに基づいて生成モデルを条件付けます。具体的には、生成的な3D顔モデルであるFLAMEでStyleGAN2を調整します。 FLAMEパラメータの条件付けでは不十分な結果が得られますが、レンダリングされたFLAMEジオメトリと測光の詳細の条件付けは適切に機能することがわかります。これにより、FLAMEのパラメトリック制御を提供するGIF(Generative Interpretable Faces)という名前の生成2D顔モデルが得られます。ここで、解釈可能とは、さまざまなパラメーターの意味的な意味を指します。形状、ポーズ、表情、外観、照明のパラメーター、および追加のスタイルベクトルのFLAMEパラメーターを指定すると、GIFは写実的な顔画像を出力します。 AMTベースの知覚研究を実行して、GIFがその条件付けにどの程度準拠しているかを定量的および定性的に評価します。コード、データ、およびトレーニング済みモデルは、http://gif.is.tue.mpg.deで調査目的で公開されています。
Photo-realistic visualization and animation of expressive human faces have been a long standing challenge. 3D face modeling methods provide parametric control but generates unrealistic images, on the other hand, generative 2D models like GANs (Generative Adversarial Networks) output photo-realistic face images, but lack explicit control. Recent methods gain partial control, either by attempting to disentangle different factors in an unsupervised manner, or by adding control post hoc to a pre-trained model. Unconditional GANs, however, may entangle factors that are hard to undo later. We condition our generative model on pre-defined control parameters to encourage disentanglement in the generation process. Specifically, we condition StyleGAN2 on FLAME, a generative 3D face model. While conditioning on FLAME parameters yields unsatisfactory results, we find that conditioning on rendered FLAME geometry and photometric details works well. This gives us a generative 2D face model named GIF (Generative Interpretable Faces) that offers FLAME's parametric control. Here, interpretable refers to the semantic meaning of different parameters. Given FLAME parameters for shape, pose, expressions, parameters for appearance, lighting, and an additional style vector, GIF outputs photo-realistic face images. We perform an AMT based perceptual study to quantitatively and qualitatively evaluate how well GIF follows its conditioning. The code, data, and trained model are publicly available for research purposes at http://gif.is.tue.mpg.de.
updated: Wed Nov 25 2020 13:37:01 GMT+0000 (UTC)
published: Mon Aug 31 2020 23:40:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト