arXiv reaDer
拡散モデルへの 3D ジオメトリ コントロールの追加
Adding 3D Geometry Control to Diffusion Models
拡散モデルは、さまざまな分野にわたる生成モデリングの強力な方法として登場し、自然言語の記述から驚くほどフォトリアリスティックな画像を生成できます。ただし、これらのモデルには、生成された画像内のオブジェクトの 3D 構造に対する明示的な制御が欠けています。この論文では、拡散モデルに 3D ジオメトリ制御を組み込み、より現実的で多様な画像を生成できる新しい方法を提案します。これを達成するために、私たちの方法では、テキスト プロンプトに加えて視覚的なプロンプトを使用して拡散モデルを拡張する ControlNet を利用します。 3D 形状リポジトリ (ShapeNet や Objaverse など) から取得した 3D オブジェクトの画像を生成し、さまざまなポーズや視線方向からそれらをレンダリングし、レンダリングされた画像のエッジ マップを計算し、これらのエッジ マップを視覚的なプロンプトとして使用して、リアルな画像。明示的な 3D ジオメトリ制御を使用すると、生成された画像内のオブジェクトの 3D 構造を簡単に変更し、グラウンド トゥルース 3D アノテーションを自動的に取得できます。これにより、生成された画像を使用して、配信内 (ID) 設定と配信外 (OOD) 設定の両方で、分類や 3D 姿勢推定などの多くの視覚タスクを改善することができます。私たちは、ImageNet-50、ImageNet-R、PASCAL3D+、ObjectNet3D、および OOD-CV データセットに関する広範な実験を通じて、この方法の有効性を実証します。結果は、私たちの方法が複数のベンチマークにわたって既存の方法よりも大幅に優れていることを示しています(たとえば、ViT を使用した ImageNet-50 では 4.6 パーセント ポイント、NeMo を使用した PASCAL3D+ および ObjectNet3D では 3.5 パーセント ポイント)。
Diffusion models have emerged as a powerful method of generative modeling across a range of fields, capable of producing stunning photo-realistic images from natural language descriptions. However, these models lack explicit control over the 3D structure of the objects in the generated images. In this paper, we propose a novel method that incorporates 3D geometry control into diffusion models, making them generate even more realistic and diverse images. To achieve this, our method exploits ControlNet, which extends diffusion models by using visual prompts in addition to text prompts. We generate images of 3D objects taken from a 3D shape repository (e.g., ShapeNet and Objaverse), render them from a variety of poses and viewing directions, compute the edge maps of the rendered images, and use these edge maps as visual prompts to generate realistic images. With explicit 3D geometry control, we can easily change the 3D structures of the objects in the generated images and obtain ground-truth 3D annotations automatically. This allows us to use the generated images to improve a lot of vision tasks, e.g., classification and 3D pose estimation, in both in-distribution (ID) and out-of-distribution (OOD) settings. We demonstrate the effectiveness of our method through extensive experiments on ImageNet-50, ImageNet-R, PASCAL3D+, ObjectNet3D, and OOD-CV datasets. The results show that our method significantly outperforms existing methods across multiple benchmarks (e.g., 4.6 percentage points on ImageNet-50 using ViT and 3.5 percentage points on PASCAL3D+ and ObjectNet3D using NeMo).
updated: Tue Jun 13 2023 19:48:56 GMT+0000 (UTC)
published: Tue Jun 13 2023 19:48:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト