忠実度の高い画像合成におけるスタイルベースの GAN (StyleGAN) の印象的な成功は、それらの潜在空間のセマンティック プロパティを理解するための研究の動機となっています。この論文では、多様体としての潜在空間の幾何学的解析を通じてこの問題に取り組みます。特に、事前トレーニングされた GAN モデルの任意の中間層のローカル次元推定アルゴリズムを提案します。推定されたローカル次元は、この潜在変数から可能な意味のバリエーションの数として解釈されます。さらに、この固有の次元推定により、潜在空間のもつれの解消を教師なしで評価できます。提案された Distortion と呼ばれるメトリックは、学習された潜在空間上の固有接空間の不一致を測定します。歪みは純粋に幾何学的であり、追加の属性情報は必要ありません。それにもかかわらず、歪みは、グローバルベースの互換性および教師ありのもつれ解除スコアと高い相関関係を示しています。私たちの作業は、属性ラベルのない GAN 内のさまざまな潜在空間の中で、最も絡み合っていない潜在空間を選択するための最初のステップです。
The impressive success of style-based GANs (StyleGANs) in high-fidelity image synthesis has motivated research to understand the semantic properties of their latent spaces. In this paper, we approach this problem through a geometric analysis of latent spaces as a manifold. In particular, we propose a local dimension estimation algorithm for arbitrary intermediate layers in a pre-trained GAN model. The estimated local dimension is interpreted as the number of possible semantic variations from this latent variable. Moreover, this intrinsic dimension estimation enables unsupervised evaluation of disentanglement for a latent space. Our proposed metric, called Distortion, measures an inconsistency of intrinsic tangent space on the learned latent space. Distortion is purely geometric and does not require any additional attribute information. Nevertheless, Distortion shows a high correlation with the global-basis-compatibility and supervised disentanglement score. Our work is the first step towards selecting the most disentangled latent space among various latent spaces in a GAN without attribute labels.