自然画像からの3D表現の教師なし学習のタスクのための新しい生成的敵対ネットワーク(GAN)を提案します。ほとんどの生成モデルは、2Dカーネルに依存して画像を生成し、3Dの世界についてほとんど仮定しません。したがって、これらのモデルは、新規ビュー合成などの強力な3D理解が必要なタスクでぼやけた画像またはアーティファクトを作成する傾向があります。 HoloGANは代わりに世界の3D表現を学習し、この表現を現実的な方法でレンダリングします。他のGANとは異なり、HoloGANは、学習した3D機能の剛体変換により、生成されたオブジェクトのポーズを明示的に制御します。私たちの実験は、明示的な3D機能を使用すると、HoloGANが3Dのポーズとアイデンティティを解きほぐし、さらに形状と外観に分解する一方で、他の生成モデルと同等以上の視覚品質の画像を生成できることを示しています。 HoloGANは、ラベルのない2D画像のみからエンドツーエンドでトレーニングできます。特に、ポーズラベル、3Dシェイプ、または同じオブジェクトの複数のビューは必要ありません。これは、HoloGANが自然な画像から3D表現を完全に教師なしで学習する最初の生成モデルであることを示しています。
We propose a novel generative adversarial network (GAN) for the task of unsupervised learning of 3D representations from natural images. Most generative models rely on 2D kernels to generate images and make few assumptions about the 3D world. These models therefore tend to create blurry images or artefacts in tasks that require a strong 3D understanding, such as novel-view synthesis. HoloGAN instead learns a 3D representation of the world, and to render this representation in a realistic manner. Unlike other GANs, HoloGAN provides explicit control over the pose of generated objects through rigid-body transformations of the learnt 3D features. Our experiments show that using explicit 3D features enables HoloGAN to disentangle 3D pose and identity, which is further decomposed into shape and appearance, while still being able to generate images with similar or higher visual quality than other generative models. HoloGAN can be trained end-to-end from unlabelled 2D images only. Particularly, we do not require pose labels, 3D shapes, or multiple views of the same objects. This shows that HoloGAN is the first generative model that learns 3D representations from natural images in an entirely unsupervised manner.