arXiv reaDer
DiffusionDB: Text-to-Image 生成モデル用の大規模 Prompt ギャラリー データセット
DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models
拡散モデルの最近の進歩により、ユーザーは自然言語でテキスト プロンプトを作成することにより、高品質の画像を生成できます。ただし、必要な詳細を含む画像を生成するには適切なプロンプトが必要であり、モデルがさまざまなプロンプトにどのように反応するか、および最適なプロンプトが何であるかが不明なことがよくあります。研究者がこれらの重要な課題に取り組むのを支援するために、最初の大規模なテキストから画像へのプロンプト データセットである DiffusionDB を導入します。 DiffusionDB には、実際のユーザーが指定したプロンプトとハイパーパラメーターを使用して、Stable Diffusion によって生成された 1,400 万の画像が含まれています。データセット内のプロンプトを分析し、これらのプロンプトの主要なプロパティについて説明します。この人間が操作するデータセットの前例のない規模と多様性は、プロンプトと生成モデル間の相互作用の理解、ディープフェイクの検出、およびユーザーがこれらのモデルをより簡単に使用できるようにする人間と AI の相互作用ツールの設計において、刺激的な研究の機会を提供します。 DiffusionDB は、https://poloclub.github.io/diffusiondb で公開されています。
With recent advancements in diffusion models, users can generate high-quality images by writing text prompts in natural language. However, generating images with desired details requires proper prompts, and it is often unclear how a model reacts to different prompts and what the best prompts are. To help researchers tackle these critical challenges, we introduce DiffusionDB, the first large-scale text-to-image prompt dataset. DiffusionDB contains 14 million images generated by Stable Diffusion using prompts and hyperparameters specified by real users. We analyze prompts in the dataset and discuss key properties of these prompts. The unprecedented scale and diversity of this human-actuated dataset provide exciting research opportunities in understanding the interplay between prompts and generative models, detecting deepfakes, and designing human-AI interaction tools to help users more easily use these models. DiffusionDB is publicly available at: https://poloclub.github.io/diffusiondb.
updated: Tue Nov 15 2022 17:31:08 GMT+0000 (UTC)
published: Wed Oct 26 2022 17:54:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト