Learning to Infer Implicit Surfaces without 3D Supervision
 3Dディープラーニングの最近の進歩により、2D画像から直接、3D形状生成のための非常に効果的なディープモデルをトレーニングできることが示されました。これは、3Dモデルの可用性がトレーニングに非常に貴重なアクセス可能な2D画像の膨大な量と比較してまだ制限されているため、特に興味深いものです。 3Dサーフェスの表現自体は、3D出力の品質と解像度の重要な要素です。点群やボクセルなどの明示的な表現は、さまざまな形状のバリエーションに及ぶ可能性がありますが、多くの場合、解像度は制限されています。メッシュベースの表現はより効率的ですが、さまざまなトポロジを処理する能力によって制限されます。ただし、暗黙的なサーフェスは、複雑な形状、トポロジを堅牢に処理でき、柔軟な解像度制御も提供します。 3Dの監督を必要とせずに、形状推論のために暗黙のサーフェスを学習するという基本的な問題に取り組みます。それらの利点にもかかわらず、(1)画像ベースの監視に必要な暗黙のサーフェスとその2Dレンダリング間の微分可能な接続を定式化することは重要です。 (2)局所的な滑らかさなど、正確な幾何学的特性と制御を確保します。特に、暗黙の表面を密にサンプリングすることは、計算が多く、非常に遅い操作であることが知られています。この目的のために、効率的な画像からフィールドへの監督のための新しい光線ベースのフィールドプローブ技術、および暗黙の表面のための一般的な幾何学的正則化を提案します。シングルビュー画像ベースの3D形状デジタル化のタスクに対するフレームワークの有効性を実証し、定量的および定性的に最先端の技術をどのように上回るかを示します。
Recent advances in 3D deep learning have shown that it is possible to train highly effective deep models for 3D shape generation, directly from 2D images. This is particularly interesting since the availability of 3D models is still limited compared to the massive amount of accessible 2D images, which is invaluable for training. The representation of 3D surfaces itself is a key factor for the quality and resolution of the 3D output. While explicit representations, such as point clouds and voxels, can span a wide range of shape variations, their resolutions are often limited. Mesh-based representations are more efficient but are limited by their ability to handle varying topologies. Implicit surfaces, however, can robustly handle complex shapes, topologies, and also provide flexible resolution control. We address the fundamental problem of learning implicit surfaces for shape inference without the need of 3D supervision. Despite their advantages, it remains nontrivial to (1) formulate a differentiable connection between implicit surfaces and their 2D renderings, which is needed for image-based supervision; and (2) ensure precise geometric properties and control, such as local smoothness. In particular, sampling implicit surfaces densely is also known to be a computationally demanding and very slow operation. To this end, we propose a novel ray-based field probing technique for efficient image-to-field supervision, as well as a general geometric regularizer for implicit surfaces, which provides natural shape priors in unconstrained regions. We demonstrate the effectiveness of our framework on the task of single-view image-based 3D shape digitization and show how we outperform state-of-the-art techniques both quantitatively and qualitatively.
