テキスト プロンプトのみによってガイドされる、入力三角形メッシュの変形を自動的に生成する手法を紹介します。私たちのフレームワークは、大きな低頻度の形状変化と小さな高頻度の詳細の両方を生成する変形が可能です。私たちのフレームワークは微分可能なレンダリングに依存して、ジオメトリを CLIP や DINO などの強力な事前トレーニング済み画像エンコーダーに接続します。特に、微分可能なレンダリングを通じて勾配ステップを実行してメッシュ ジオメトリを更新することは、非常に難しいことで有名であり、通常、重大なアーティファクトを伴う変形したメッシュが発生します。これらの問題は、CLIP からのノイズが多く一貫性のないグラデーションによって増幅されます。この制限を克服するために、ヤコビアンを使用してメッシュの変形を表現することを選択します。これは、局所的に次善のステップではなく、グローバルでスムーズな方法で変形を更新します。私たちの重要な観察結果は、ヤコビアンはより滑らかで大きな変形を好む表現であり、頂点とピクセルの間のグローバルな関係につながり、局所的なノイズの多い勾配を回避することです。さらに、結果の形状がすべての 3D 視点から一貫していることを確認するために、レンダリングの 2D エンコーディングで計算された深い特徴が、すべての視点からの特定の頂点に対して一貫していることをお勧めします。私たちの方法が、多種多様なソースメッシュとターゲットテキストプロンプトをスムーズに変形できることを実証し、動物の体のプロポーションなどに大きな変更を加えたり、軍隊の靴ひもなどの細かい意味の詳細を追加したりできます。ブーツと顔の細かいディテール。
We present a technique for automatically producing a deformation of an input triangle mesh, guided solely by a text prompt. Our framework is capable of deformations that produce both large, low-frequency shape changes, and small high-frequency details. Our framework relies on differentiable rendering to connect geometry to powerful pre-trained image encoders, such as CLIP and DINO. Notably, updating mesh geometry by taking gradient steps through differentiable rendering is notoriously challenging, commonly resulting in deformed meshes with significant artifacts. These difficulties are amplified by noisy and inconsistent gradients from CLIP. To overcome this limitation, we opt to represent our mesh deformation through Jacobians, which updates deformations in a global, smooth manner (rather than locally-sub-optimal steps). Our key observation is that Jacobians are a representation that favors smoother, large deformations, leading to a global relation between vertices and pixels, and avoiding localized noisy gradients. Additionally, to ensure the resulting shape is coherent from all 3D viewpoints, we encourage the deep features computed on the 2D encoding of the rendering to be consistent for a given vertex from all viewpoints. We demonstrate that our method is capable of smoothly-deforming a wide variety of source mesh and target text prompts, achieving both large modifications to, e.g., body proportions of animals, as well as adding fine semantic details, such as shoe laces on an army boot and fine details of a face.