arXiv reaDer
大規模な生成モデルは将来のデータセットを破壊しますか?
Will Large-scale Generative Models Corrupt Future Datasets?
DALL∙E 2、Midjourney、StableDiffusion など、最近提案された大規模なテキストから画像への生成モデルは、ユーザーのプロンプトから高品質でリアルな画像を生成できます。研究コミュニティに限らず、一般のインターネット ユーザーはこれらの生成モデルを楽しんでおり、その結果、膨大な量の生成された画像がインターネット上で共有されています。一方、今日のコンピュータ ビジョン分野におけるディープ ラーニングの成功は、インターネットから収集された画像に大きく依存しています。これらの傾向は、「このように生成された画像は、将来のデータセットの品質とコンピューター ビジョン モデルのパフォーマンスにプラスまたはマイナスの影響を与えるでしょうか?」という研究上の疑問につながります。この論文では、汚染をシミュレートすることによって、この質問に経験的に答えています。つまり、最先端の生成モデルを使用して ImageNet スケールおよび COCO スケールのデータセットを生成し、画像分類や画像生成を含むさまざまなタスクで「汚染された」データセットでトレーニングされたモデルを評価します。実験を通して、生成された画像はダウンストリームのパフォーマンスに悪影響を与えると結論付けましたが、重要性はタスクと生成された画像の量に依存します。生成されたデータセットは、https://github.com/moskomule/dataset-contamination から入手できます。
Recently proposed large-scale text-to-image generative models such as DALL∙E 2, Midjourney, and StableDiffusion can generate high-quality and realistic images from users' prompts. Not limited to the research community, ordinary Internet users enjoy these generative models, and consequently a tremendous amount of generated images have been shared on the Internet. Meanwhile, today's success of deep learning in the computer vision field owes a lot to images collected from the Internet. These trends lead us to a research question: "will such generated images impact the quality of future datasets and the performance of computer vision models positively or negatively?" This paper empirically answers this question by simulating contamination. Namely, we generate ImageNet-scale and COCO-scale datasets using a state-of-the-art generative model and evaluate models trained on ``contaminated'' datasets on various tasks including image classification and image generation. Throughout experiments, we conclude that generated images negatively affect downstream performance, while the significance depends on tasks and the amount of generated images. The generated datasets are available via https://github.com/moskomule/dataset-contamination.
updated: Tue Nov 15 2022 12:25:33 GMT+0000 (UTC)
published: Tue Nov 15 2022 12:25:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト