3D オブジェクトの説明テキストを自動生成するアプローチである Cap3D を紹介します。このアプローチでは、画像キャプション、画像とテキストの配置、および LLM からの事前トレーニング済みモデルを利用して、3D アセットの複数のビューからのキャプションを統合し、時間とコストのかかる手動アノテーションのプロセスを完全に回避します。最近導入された大規模 3D データセット Objaverse に Cap3D を適用すると、660k の 3D テキスト ペアが生成されます。同じデータセットからの 41,000 個の人による注釈を使用して実施された私たちの評価は、Cap3D が品質、コスト、速度の点で人間が作成した記述を上回っていることを示しています。 Cap3D は、効果的なプロンプト エンジニアリングを通じて、ABO データセットから収集された 17,000 個のアノテーションに対して幾何学的記述を生成するという点で、人間のパフォーマンスに匹敵します。最後に、Cap3D 上の Text-to-3D モデルと人間のキャプションを微調整し、Cap3D が優れていることを示します。 Point-E、Shape-E、DreamFusion を含む SOTA のベンチマークを行います。
We introduce Cap3D, an automatic approach for generating descriptive text for 3D objects. This approach utilizes pretrained models from image captioning, image-text alignment, and LLM to consolidate captions from multiple views of a 3D asset, completely side-stepping the time-consuming and costly process of manual annotation. We apply Cap3D to the recently introduced large-scale 3D dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted using 41k human annotations from the same dataset, demonstrates that Cap3D surpasses human-authored descriptions in terms of quality, cost, and speed. Through effective prompt engineering, Cap3D rivals human performance in generating geometric descriptions on 17k collected annotations from the ABO dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions, and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E, and DreamFusion.