この論文では、私たちが知る限り、自然画像から3D形状の生成モデルを完全に教師なしで学習する最初の方法を紹介します。たとえば、トレーニング中にグラウンドトゥルースの3Dまたは2Dアノテーション、ステレオビデオ、エゴモーションを使用しません。私たちのアプローチは、Generative Adversarial Networksの一般的な戦略に従います。画像生成ネットワークは、識別ネットワークを欺いて自然な画像であると信じ込ませるのに十分な現実的な画像サンプルを作成することを学習します。対照的に、このアプローチでは、画像生成は2つの段階に分割されます。最初の段階では、ジェネレーターネットワークが3Dオブジェクトを出力します。 2番目の方法では、微分可能なレンダラーがランダムな視点から3Dオブジェクトの画像を生成します。重要な点は、現実的な3Dオブジェクトは、もっともらしい視点から現実的なレンダリングを生成する必要があるということです。したがって、視点の選択をランダム化することにより、提案されたトレーニングにより、ジェネレーターネットワークは、視点から解かれた解釈可能な3D表現を学習するように強制されます。この作業では、3D表現は、三角形メッシュと、UVマッピング手法を使用して三角形の表面に色を付けるために使用されるテクスチャマップで構成されます。学習アプローチの分析を提供し、その曖昧さを明らかにし、それらを克服する方法を示します。実験的に、FFHQデータセットの自然画像のみを使用することで、この方法が現実的な3D顔の形状を学習できることを実証します。
In this paper we present, to the best of our knowledge, the first method to learn a generative model of 3D shapes from natural images in a fully unsupervised way. For example, we do not use any ground truth 3D or 2D annotations, stereo video, and ego-motion during the training. Our approach follows the general strategy of Generative Adversarial Networks, where an image generator network learns to create image samples that are realistic enough to fool a discriminator network into believing that they are natural images. In contrast, in our approach the image generation is split into 2 stages. In the first stage a generator network outputs 3D objects. In the second, a differentiable renderer produces an image of the 3D objects from random viewpoints. The key observation is that a realistic 3D object should yield a realistic rendering from any plausible viewpoint. Thus, by randomizing the choice of the viewpoint our proposed training forces the generator network to learn an interpretable 3D representation disentangled from the viewpoint. In this work, a 3D representation consists of a triangle mesh and a texture map that is used to color the triangle surface by using the UV-mapping technique. We provide analysis of our learning approach, expose its ambiguities and show how to overcome them. Experimentally, we demonstrate that our method can learn realistic 3D shapes of faces by using only the natural images of the FFHQ dataset.