敵対的生成ネットワーク(GAN)の領域の進歩により、StyleGAN2などの驚くほどリアルな画像を生成できるアーキテクチャが生まれました。StyleGAN2は、FFHQデータセットでトレーニングすると、低次元の潜在空間のランダムなベクトルから人間の顔の画像を生成します。残念ながら、この空間は絡み合っています-その軸に沿って潜在的なベクトルを変換することは、出力空間の意味のある変換に対応していません(たとえば、笑顔の口、目を細める)。モデルはブラックボックスとして動作し、出力の制御も、データから学習した構造への洞察も提供しません。顔の空間的に局所化された領域の変化の多様体を探索する方法を提示します。私たちの方法は、アニメーションの作成に適したこれらの多様体に沿って滑らかに変化する潜在ベクトルのシーケンスを発見します。ラベル付きデータを必要とするか、内部モデルパラメータを明示的に変更する既存の解きほぐし方法とは異なり、私たちの方法は、カスタム損失関数と手動で定義された変更領域によって導かれる最適化ベースのアプローチです。私たちのコードはオープンソースであり、補足的な結果とともに、私たちのプロジェクトページで見つけることができます:https://github.com/bmolab/masked-gan-manifold
Advances in the realm of Generative Adversarial Networks (GANs) have led to architectures capable of producing amazingly realistic images such as StyleGAN2, which, when trained on the FFHQ dataset, generates images of human faces from random vectors in a lower-dimensional latent space. Unfortunately, this space is entangled - translating a latent vector along its axes does not correspond to a meaningful transformation in the output space (e.g., smiling mouth, squinting eyes). The model behaves as a black box, providing neither control over its output nor insight into the structures it has learned from the data. We present a method to explore the manifolds of changes of spatially localized regions of the face. Our method discovers smoothly varying sequences of latent vectors along these manifolds suitable for creating animations. Unlike existing disentanglement methods that either require labelled data or explicitly alter internal model parameters, our method is an optimization-based approach guided by a custom loss function and manually defined region of change. Our code is open-sourced, which can be found, along with supplementary results, on our project page: https://github.com/bmolab/masked-gan-manifold