Escaping Plato's Cave: 3D Shape From Adversarial Rendering
 PlatonicGANを導入して、2D画像の非構造化コレクションからオブジェクトクラスの3D構造を検出します。つまり、同じカテゴリのインスタンスを表示していることを除いて、写真間の関係は不明です。重要なアイデアは、ディープニューラルネットワークをトレーニングして、画像にレンダリングしたときに、さまざまなカメラポーズの下でグラウンドトゥルース画像(弁別器用)と見分けがつかない3D形状を生成することです。 3D形状ではなく2D画像を識別することにより、キュレーションされた(たとえば、位置合わせ、注釈など)3Dデータセットに依存するのではなく、構造化されていない2D写真コレクションにアクセスできます。 2D画像観察と3D解釈の間に制約を確立するために、効果的に微分可能なレンダリングレイヤーのファミリーを提案します。このファミリには、視覚的な船体、吸収のみ(X線に類似)、および放射吸収が含まれます。非構造化2D画像から3D形状を正常に再構築し、一連の合成および実際のデータセットでPlatonicGANを広範囲に評価して、ベースラインメソッドよりも一貫した改善を達成できます。さらに、PlatonicGANを3D監視と組み合わせて、3D監視方法の品質を改善し、場合によってはそれを上回ることもできます。
We introduce PlatonicGAN to discover the 3D structure of an object class from an unstructured collection of 2D images, i.e., where no relation between photos is known, except that they are showing instances of the same category. The key idea is to train a deep neural network to generate 3D shapes which, when rendered to images, are indistinguishable from ground truth images (for a discriminator) under various camera poses. Discriminating 2D images instead of 3D shapes allows tapping into unstructured 2D photo collections instead of relying on curated (e.g., aligned, annotated, etc.) 3D data sets. To establish constraints between 2D image observation and their 3D interpretation, we suggest a family of rendering layers that are effectively differentiable. This family includes visual hull, absorption-only (akin to x-ray), and emission-absorption. We can successfully reconstruct 3D shapes from unstructured 2D images and extensively evaluate PlatonicGAN on a range of synthetic and real data sets achieving consistent improvements over baseline methods. We further show that PlatonicGAN can be combined with 3D supervision to improve on and in some cases even surpass the quality of 3D-supervised methods.
updated: Thu Jun 10 2021 09:17:27 GMT+0000 (UTC)
published: Wed Nov 28 2018 14:58:22 GMT+0000 (UTC)
