テキスト条件付き 3D オブジェクト生成に関する最近の研究では有望な結果が示されていますが、最先端の方法では通常、1 つのサンプルを生成するのに複数の GPU 時間を必要とします。これは、数秒または数分でサンプルを生成する最先端の生成画像モデルとはまったく対照的です。このホワイト ペーパーでは、単一の GPU でわずか 1 ~ 2 分で 3D モデルを生成する 3D オブジェクト生成の代替方法を検討します。私たちの方法は、最初にテキストから画像への拡散モデルを使用して単一の合成ビューを生成し、次に生成された画像を条件とする2番目の拡散モデルを使用して3D点群を生成します。私たちの方法は、サンプルの品質に関してはまだ最先端には達していませんが、サンプリングするのに1〜2桁高速であり、一部のユースケースでは実用的なトレードオフを提供します. https://github.com/openai/point-e で、事前トレーニング済みの点群拡散モデル、および評価コードとモデルをリリースします。
While recent work on text-conditional 3D object generation has shown promising results, the state-of-the-art methods typically require multiple GPU-hours to produce a single sample. This is in stark contrast to state-of-the-art generative image models, which produce samples in a number of seconds or minutes. In this paper, we explore an alternative method for 3D object generation which produces 3D models in only 1-2 minutes on a single GPU. Our method first generates a single synthetic view using a text-to-image diffusion model, and then produces a 3D point cloud using a second diffusion model which conditions on the generated image. While our method still falls short of the state-of-the-art in terms of sample quality, it is one to two orders of magnitude faster to sample from, offering a practical trade-off for some use cases. We release our pre-trained point cloud diffusion models, as well as evaluation code and models, at https://github.com/openai/point-e.