単一のRGB画像から暗黙の3D形状表現を予測することを学習する新しい3D形状再構成方法を提示します。私たちのアプローチでは、視点の注釈なしで複数のオブジェクトカテゴリのシングルビュー画像のセットを使用し、モデルに3D監視なしで複数のオブジェクトカテゴリにわたって学習させます。このような最小限の監視で学習を容易にするために、カテゴリラベルを使用して、新しいカテゴリメトリック学習アプローチで形状学習をガイドします。また、敵対的および視点の正則化手法を利用して、視点と形状の影響をさらに解きほぐします。 3Dキューのない単一モデルを使用して、大規模(50を超えるカテゴリ)の単一視点形状予測の最初の結果を取得します。また、シングルビューの監視付き3D形状再構成におけるクラス情報の利点を調査および定量化した最初の企業でもあります。私たちの方法は、ShapeNet-13、ShapeNet-55、およびPascal3D+の最先端の方法よりも優れたパフォーマンスを実現します。
We present a novel 3D shape reconstruction method which learns to predict an implicit 3D shape representation from a single RGB image. Our approach uses a set of single-view images of multiple object categories without viewpoint annotation, forcing the model to learn across multiple object categories without 3D supervision. To facilitate learning with such minimal supervision, we use category labels to guide shape learning with a novel categorical metric learning approach. We also utilize adversarial and viewpoint regularization techniques to further disentangle the effects of viewpoint and shape. We obtain the first results for large-scale (more than 50 categories) single-viewpoint shape prediction using a single model without any 3D cues. We are also the first to examine and quantify the benefit of class information in single-view supervised 3D shape reconstruction. Our method achieves superior performance over state-of-the-art methods on ShapeNet-13, ShapeNet-55 and Pascal3D+.