拡散モデルは、2D 画像の生成モデリングに最適なアプローチとして浮上しました。彼らの成功の一部は、安定した学習目標を持って、数十億ではないにしても数百万の画像でトレーニングできる可能性によるものです。ただし、これらのモデルを 3D に拡張することは、2 つの理由により依然として困難です。まず、大量の 3D トレーニング データを見つけるのは、2D 画像の場合よりもはるかに複雑です。第 2 に、2D グリッドではなく 3D グリッド上で動作するようにモデルを拡張することは概念的には自明ですが、それに伴うメモリと計算の複雑さの 3 次増加により、これは実行不可能になります。私たちは、監視用にポーズをとった 2D 画像のみを使用してエンドツーエンドでトレーニングできる新しい拡散セットアップを導入することで、最初の課題に対処します。 2 番目の課題は、モデルのメモリを空間メモリから切り離す画像形成モデルを提案することです。これまで 3D 生成モデルのトレーニングに使用されていなかった CO3D データセットを使用して、実世界のデータでメソッドを評価します。私たちの拡散モデルはスケーラブルで、堅牢にトレーニングされ、サンプル品質と 3D 生成モデリングの既存のアプローチへの忠実度の点で競争力があることを示します。
Diffusion models have emerged as the best approach for generative modeling of 2D images. Part of their success is due to the possibility of training them on millions if not billions of images with a stable learning objective. However, extending these models to 3D remains difficult for two reasons. First, finding a large quantity of 3D training data is much more complex than for 2D images. Second, while it is conceptually trivial to extend the models to operate on 3D rather than 2D grids, the associated cubic growth in memory and compute complexity makes this infeasible. We address the first challenge by introducing a new diffusion setup that can be trained, end-to-end, with only posed 2D images for supervision; and the second challenge by proposing an image formation model that decouples model memory from spatial memory. We evaluate our method on real-world data, using the CO3D dataset which has not been used to train 3D generative models before. We show that our diffusion models are scalable, train robustly, and are competitive in terms of sample quality and fidelity to existing approaches for 3D generative modeling.