Inverse Graphics: Unsupervised Learning of 3D Shapes from Single Images
 Inverse Graphicsの生成モデルの使用は、活発な研究分野です。ただし、ほとんどの作品は、教師ありメソッドおよび半教師ありメソッドのモデルの開発に焦点を当てています。この論文では、単一画像からの3Dジオメトリの教師なし学習の問題を研究します。私たちのアプローチは、潜在的な3Dボクセルグリッドの投影として2D画像を生成する生成モデルを使用することです。これは、変分オートエンコーダーとして、または敵対的手法を使用して訓練します。私たちの貢献は次のとおりです。まず、MNISTやMNIST Fashionなどの一般的なデータセットから3D形状とポーズを高品質で復元する方法を示します。次に、敵対法と変分法を使用して学習した形状を比較します。敵対的アプローチは、より密度の高い3D形状を提供します。第三に、単一の画像から3D形状を復元するために、オブジェクトのポーズを均一な分布としてモデル化するアイデアを探ります。 CelebAデータセットliu2015faceattributesを使用した実験により、オブジェクトが1つまたは複数の軸に沿って対称である場合、単一の画像から完全な3D形状を復元でき、ModelNet40 wu20153dを使用して得られた結果は、モデルが3D形状を学習する潜在的な副作用を示すあらゆる視点から同じ画像をレンダリングできるように。第4に、方位角などの変動要因を独立した潜在変数としてモデリングすることにより、完全に教師なしで単一画像から3D形状を学習するための一般的なエンドツーエンドのアプローチを示します。私たちの方法は、データセットに関する仮定を行わず、合成画像と実際の画像(つまり、真の意味での監視なし)で動作します。 μ-VAEの目的ucar2019bridgingとMNIST、MNIST Fashion、CelebA、および6つのカテゴリのModelNet40のすべての画像を組み合わせたデータセットを使用してモデルをトレーニングすることにより、結果を示します。モデルは3D形状とポーズをqood品質で学習でき、すべてのデータセットで学習した情報を活用します。
Using generative models for Inverse Graphics is an active area of research. However, most works focus on developing models for supervised and semi-supervised methods. In this paper, we study the problem of unsupervised learning of 3D geometry from single images. Our approach is to use a generative model that produces 2-D images as projections of a latent 3D voxel grid, which we train either as a variational auto-encoder or using adversarial methods. Our contributions are as follows: First, we show how to recover 3D shape and pose from general datasets such as MNIST, and MNIST Fashion in good quality. Second, we compare the shapes learned using adversarial and variational methods. Adversarial approach gives denser 3D shapes. Third, we explore the idea of modelling the pose of an object as uniform distribution to recover 3D shape from a single image. Our experiment with the CelebA dataset liu2015faceattributes proves that we can recover complete 3D shape from a single image when the object is symmetric along one, or more axis whilst results obtained using ModelNet40 wu20153d show the potential side-effects, in which the model learns 3D shapes such that it can render the same image from any viewpoint. Forth, we present a general end-to-end approach to learning 3D shapes from single images in a completely unsupervised fashion by modelling the factors of variation such as azimuth as independent latent variables. Our method makes no assumptions about the dataset, and can work with synthetic as well as real images (i.e. unsupervised in true sense). We present our results, by training the model using the μ-VAE objective ucar2019bridging and a dataset combining all images from MNIST, MNIST Fashion, CelebA and six categories of ModelNet40. The model is able to learn 3D shapes and the pose in qood quality and leverages information learned across all datasets.
updated: Mon Dec 02 2019 16:19:18 GMT+0000 (UTC)
published: Thu Oct 31 2019 09:14:28 GMT+0000 (UTC)
