拡散モデルの最近の進歩により、ユーザーは自然言語でテキスト プロンプトを書くことで高品質の画像を生成できます。ただし、必要な詳細を含むイメージを生成するには適切なプロンプトが必要であり、モデルがさまざまなプロンプトにどのように反応するか、または最適なプロンプトが何かが不明瞭なことがよくあります。研究者がこれらの重要な課題に取り組むのを支援するために、私たちは DiffusionDB を導入しました。これは、合計 6.5 TB に達する初の大規模なテキストから画像へのプロンプト データセットであり、Stable Diffusion によって生成された 1,400 万枚の画像、180 万個の一意のプロンプト、および実際のユーザーによって指定されたハイパーパラメータが含まれています。プロンプトの構文的および意味的特徴を分析します。モデルエラーを引き起こす可能性のある特定のハイパーパラメータ値とプロンプトスタイルを特定し、誤った情報の生成など、潜在的に有害なモデル使用の証拠を提示します。この人間が操作するデータセットの前例のない規模と多様性は、プロンプトと生成モデルの間の相互作用の理解、ディープフェイクの検出、ユーザーがこれらのモデルをより簡単に使用できるようにする人間と AI のインタラクション ツールの設計において刺激的な研究の機会を提供します。 DiffusionDB は、https://poloclub.github.io/diffusiondb で公開されています。
With recent advancements in diffusion models, users can generate high-quality images by writing text prompts in natural language. However, generating images with desired details requires proper prompts, and it is often unclear how a model reacts to different prompts or what the best prompts are. To help researchers tackle these critical challenges, we introduce DiffusionDB, the first large-scale text-to-image prompt dataset totaling 6.5TB, containing 14 million images generated by Stable Diffusion, 1.8 million unique prompts, and hyperparameters specified by real users. We analyze the syntactic and semantic characteristics of prompts. We pinpoint specific hyperparameter values and prompt styles that can lead to model errors and present evidence of potentially harmful model usage, such as the generation of misinformation. The unprecedented scale and diversity of this human-actuated dataset provide exciting research opportunities in understanding the interplay between prompts and generative models, detecting deepfakes, and designing human-AI interaction tools to help users more easily use these models. DiffusionDB is publicly available at: https://poloclub.github.io/diffusiondb.