arXiv reaDer
危険な拡散: テキストから画像へのモデルからの危険な画像と憎しみに満ちたミームの生成について
Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models
Stable Diffusion や DALLE∙2 などの最先端の Text-to-Image モデルは、ビジュアル コンテンツの生成方法に革命をもたらしています。同時に、社会は、攻撃者がそのようなモデルを悪用して危険な画像を生成する方法について深刻な懸念を抱いています。この研究では、Text-to-Image モデルからの安全でない画像と憎悪に満ちたミームの生成を解明することに焦点を当てています。まず、5 つのカテゴリー (露骨な性的、暴力的、不穏な、憎しみに満ちた、政治的) からなる危険な画像の類型を構築します。次に、4 つのプロンプト データセットを使用して、4 つの高度な Text-to-Image モデルによって生成された安全でない画像の割合を評価します。これらのモデルはかなりの割合で安全でない画像を生成する可能性があることがわかりました。 4 つのモデルと 4 つのプロンプト データセットにわたって、生成されたすべての画像の 14.56% が安全ではありません。 4 つのモデルを比較すると、リスク レベルが異なり、安定拡散は安全でないコンテンツを生成する傾向が最も高いことがわかります (生成されたすべての画像の 18.92% が安全ではありません)。 Stable Diffusion がより危険なコンテンツを生成する傾向があることを考慮して、攻撃者が特定の個人またはコミュニティを攻撃するために悪用した場合に、憎悪に満ちたミームの亜種を生成する可能性を評価します。 Stable Diffusion でサポートされている DreamBooth、Textual Inversion、SDEdit の 3 つの画像編集方法を採用しています。私たちの評価結果では、DreamBooth を使用して生成された画像の 24% が、元のヘイト ミームとターゲットの個人/コミュニティの特徴を表すヘイト ミームの亜種であることがわかりました。これらの生成された画像は、現実世界から収集された憎しみに満ちたミームの亜種に匹敵します。全体として、私たちの結果は、安全でない画像が大規模に生成される危険が差し迫っていることを示しています。私たちは、トレーニング データのキュレーション、プロンプトの規制、安全フィルターの実装など、いくつかの緩和策について議論し、安全でない生成を防ぐためのより優れた保護ツールの開発を奨励します。
State-of-the-art Text-to-Image models like Stable Diffusion and DALLE∙2 are revolutionizing how people generate visual content. At the same time, society has serious concerns about how adversaries can exploit such models to generate unsafe images. In this work, we focus on demystifying the generation of unsafe images and hateful memes from Text-to-Image models. We first construct a typology of unsafe images consisting of five categories (sexually explicit, violent, disturbing, hateful, and political). Then, we assess the proportion of unsafe images generated by four advanced Text-to-Image models using four prompt datasets. We find that these models can generate a substantial percentage of unsafe images; across four models and four prompt datasets, 14.56% of all generated images are unsafe. When comparing the four models, we find different risk levels, with Stable Diffusion being the most prone to generating unsafe content (18.92% of all generated images are unsafe). Given Stable Diffusion's tendency to generate more unsafe content, we evaluate its potential to generate hateful meme variants if exploited by an adversary to attack a specific individual or community. We employ three image editing methods, DreamBooth, Textual Inversion, and SDEdit, which are supported by Stable Diffusion. Our evaluation result shows that 24% of the generated images using DreamBooth are hateful meme variants that present the features of the original hateful meme and the target individual/community; these generated images are comparable to hateful meme variants collected from the real world. Overall, our results demonstrate that the danger of large-scale generation of unsafe images is imminent. We discuss several mitigating measures, such as curating training data, regulating prompts, and implementing safety filters, and encourage better safeguard tools to be developed to prevent unsafe generation.
updated: Wed Aug 16 2023 11:16:15 GMT+0000 (UTC)
published: Tue May 23 2023 09:48:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト