DreamBooth3D は、3 ~ 6 枚のさりげなく撮影された被写体の画像から、テキストから 3D への生成モデルをパーソナライズするアプローチです。私たちのアプローチは、テキストから画像へのモデルのパーソナライズ (DreamBooth) とテキストから 3D への生成 (DreamFusion) における最近の進歩を組み合わせたものです。これらの方法を単純に組み合わせても、パーソナライズされたテキストから画像へのモデルが被験者の入力視点にオーバーフィットするため、満足のいく被験者固有の 3D アセットが得られないことがわかりました。私たちは、ニューラル ラディアンス フィールドの 3D 一貫性とテキストから画像へのモデルのパーソナライゼーション機能を共同で活用する 3 段階の最適化戦略を通じてこれを克服します。私たちの方法は、被写体の入力画像には見られない斬新なポーズ、色、属性などのテキスト駆動型の変更を加えた、高品質で被写体固有の 3D アセットを生成できます。
We present DreamBooth3D, an approach to personalize text-to-3D generative models from as few as 3-6 casually captured images of a subject. Our approach combines recent advances in personalizing text-to-image models (DreamBooth) with text-to-3D generation (DreamFusion). We find that naively combining these methods fails to yield satisfactory subject-specific 3D assets due to personalized text-to-image models overfitting to the input viewpoints of the subject. We overcome this through a 3-stage optimization strategy where we jointly leverage the 3D consistency of neural radiance fields together with the personalization capability of text-to-image models. Our method can produce high-quality, subject-specific 3D assets with text-driven modifications such as novel poses, colors and attributes that are not seen in any of the input images of the subject.