以前の作業では、2Dのみの自己監視から分離された3Dオブジェクト(ボクセルグリッド、点群、メッシュなど)を学習することが実証されています。ここでは、これを、場所、向き、タイプ、シーンの照明など、複数のオブジェクトで構成される3Dシーン全体に拡張することに着手しました。学習したら、任意の2D画像を3Dシーン構造にマッピングできます。微分可能レンダリングを使用した3Dシーン構造の監視のための合成による分析のような損失が、ほとんどの場合、視覚的なあいまいさの極小値にとどまるため、実用的でない理由を分析します。これは、新しい形式のトレーニングによって克服できます。追加のネットワークを使用して、最適化自体を操作し、考えられるソリューションの全範囲を探索します。つまり、好奇心をそそり、したがって、これらのあいまいさを解決し、実行可能な最小値を見つけます。結果として得られるシステムは、さまざまな仮想画像または実画像の2D画像を、それらのシーンの2D画像からのみ学習した完全な3Dシーンに変換します。
Previous work has demonstrated learning isolated 3D objects (voxel grids, point clouds, meshes, etc.) from 2D-only self-supervision. Here we set out to extend this to entire 3D scenes made out of multiple objects, including their location, orientation and type, and the scenes illumination. Once learned, we can map arbitrary 2D images to 3D scene structure. We analyze why analysis-by-synthesis-like losses for supervision of 3D scene structure using differentiable rendering is not practical, as it almost always gets stuck in local minima of visual ambiguities. This can be overcome by a novel form of training: we use an additional network to steer the optimization itself to explore the full gamut of possible solutions i.e. to be curious, and hence, to resolve those ambiguities and find workable minima. The resulting system converts 2D images of different virtual or real images into complete 3D scenes, learned only from 2D images of those scenes.