arXiv reaDer
テキストと画像に基づく3Dアバターの生成と操作
Text and Image Guided 3D Avatar Generation and Manipulation
潜在空間の操作は、最近、生成モデルの分野で興味深いトピックになっています。最近の調査によると、潜在的な方向を使用して、特定の属性に向けて画像を操作できることが示されています。ただし、3D生成モデルの生成プロセスを制御することは依然として課題です。この作品では、「若い顔」や「驚いた顔」などのテキストまたは画像ベースのプロンプトを使用して、モデルの形状とテクスチャの両方を操作できる新しい3D操作方法を提案します。 Contrastive Language-Image Pre-training(CLIP)モデルと、顔のアバターを生成するように設計された事前トレーニング済みの3D GANモデルの能力を活用し、メッシュを操作するための完全に差別化可能なレンダリングパイプラインを作成します。より具体的には、このメソッドは入力潜在コードを受け取り、テキストまたは画像プロンプトで指定されたターゲット属性が存在または拡張されるように変更しますが、他の属性はほとんど影響を受けません。私たちの方法は、操作ごとにわずか5分しか必要とせず、広範な結果と比較により、私たちのアプローチの有効性を示しています。
The manipulation of latent space has recently become an interesting topic in the field of generative models. Recent research shows that latent directions can be used to manipulate images towards certain attributes. However, controlling the generation process of 3D generative models remains a challenge. In this work, we propose a novel 3D manipulation method that can manipulate both the shape and texture of the model using text or image-based prompts such as 'a young face' or 'a surprised face'. We leverage the power of Contrastive Language-Image Pre-training (CLIP) model and a pre-trained 3D GAN model designed to generate face avatars, and create a fully differentiable rendering pipeline to manipulate meshes. More specifically, our method takes an input latent code and modifies it such that the target attribute specified by a text or image prompt is present or enhanced, while leaving other attributes largely unaffected. Our method requires only 5 minutes per manipulation, and we demonstrate the effectiveness of our approach with extensive results and comparisons.
updated: Sat Feb 12 2022 14:37:29 GMT+0000 (UTC)
published: Sat Feb 12 2022 14:37:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト