長年にわたり、2DGANはフォトリアリスティックなポートレート生成で大きな成功を収めてきました。ただし、生成プロセスでの3Dの理解が不足しているため、マルチビューの不整合の問題が発生します。この問題を軽減するために、多くの3D対応GANが提案され、注目に値する結果が示されていますが、3DGANはセマンティック属性の編集に苦労しています。 3DGANの可制御性と解釈可能性はあまり検討されていません。この作業では、2DGANと3D対応GANのこれらの弱点を克服するための2つのソリューションを提案します。最初に、新しい3D対応GANであるSURF-GANを紹介します。これは、トレーニング中にセマンティック属性を検出し、教師なしでそれらを制御することができます。その後、SURF-GANの事前情報をStyleGANに注入して、忠実度の高い3D制御可能なジェネレーターを取得します。暗黙的なポーズ制御を可能にする既存の潜在ベースの方法とは異なり、提案された3D制御可能なStyleGANは、ポートレート生成に対する明示的なポーズ制御を可能にします。この蒸留により、3D制御と多くのStyleGANベースの手法(反転やスタイル設定など)との直接的な互換性が可能になり、計算リソースの面でも利点がもたらされます。コードはhttps://github.com/jgkwak95/SURF-GANで入手できます。
Over the years, 2D GANs have achieved great successes in photorealistic portrait generation. However, they lack 3D understanding in the generation process, thus they suffer from multi-view inconsistency problem. To alleviate the issue, many 3D-aware GANs have been proposed and shown notable results, but 3D GANs struggle with editing semantic attributes. The controllability and interpretability of 3D GANs have not been much explored. In this work, we propose two solutions to overcome these weaknesses of 2D GANs and 3D-aware GANs. We first introduce a novel 3D-aware GAN, SURF-GAN, which is capable of discovering semantic attributes during training and controlling them in an unsupervised manner. After that, we inject the prior of SURF-GAN into StyleGAN to obtain a high-fidelity 3D-controllable generator. Unlike existing latent-based methods allowing implicit pose control, the proposed 3D-controllable StyleGAN enables explicit pose control over portrait generation. This distillation allows direct compatibility between 3D control and many StyleGAN-based techniques (e.g., inversion and stylization), and also brings an advantage in terms of computational resources. Our codes are available at https://github.com/jgkwak95/SURF-GAN.