再帰的なテキスト条件付き3D形状生成のためのニューラルネットワークであるShapeCrafterを紹介します。テキスト条件付きの3D形状を生成する既存の方法では、テキストプロンプト全体を使用して、1つのステップで3D形状を生成します。ただし、人間は形状を再帰的に記述する傾向があります。最初の記述から始めて、中間の結果に基づいて徐々に詳細を追加する場合があります。この再帰的なプロセスをキャプチャするために、最初のフレーズを条件として、フレーズが追加されるにつれて徐々に進化する3D形状分布を生成する方法を紹介します。既存のデータセットはこのアプローチをトレーニングするには不十分であるため、再帰的な形状生成をサポートする369Kの形状とテキストのペアの大規模なデータセットであるText2Shape++を紹介します。形状の説明を洗練するためによく使用されるローカルの詳細をキャプチャするために、高品質の形状の分布を生成するベクトル量子化された深い陰関数の上に構築します。結果は、私たちの方法がテキストの説明と一致する形状を生成できることを示しており、フレーズが追加されるにつれて形状は徐々に進化します。私たちの方法は、形状編集、外挿をサポートし、創造的な設計のための人間と機械のコラボレーションにおける新しいアプリケーションを可能にすることができます。
We present ShapeCrafter, a neural network for recursive text-conditioned 3D shape generation. Existing methods to generate text-conditioned 3D shapes consume an entire text prompt to generate a 3D shape in a single step. However, humans tend to describe shapes recursively-we may start with an initial description and progressively add details based on intermediate results. To capture this recursive process, we introduce a method to generate a 3D shape distribution, conditioned on an initial phrase, that gradually evolves as more phrases are added. Since existing datasets are insufficient for training this approach, we present Text2Shape++, a large dataset of 369K shape-text pairs that supports recursive shape generation. To capture local details that are often used to refine shape descriptions, we build on top of vector-quantized deep implicit functions that generate a distribution of high-quality shapes. Results show that our method can generate shapes consistent with text descriptions, and shapes evolve gradually as more phrases are added. Our method supports shape editing, extrapolation, and can enable new applications in human-machine collaboration for creative design.