arXiv reaDer
テキストによるペイントの照明(不)一貫性
Lighting (In)consistency of Paint by Text
生成的敵対的ネットワークは、顔、猫、風景、またはその他のほぼすべての単一カテゴリの非常にリアルな画像を合成できますが、テキストごとのペイント合成エンジンは、単一のテキストプロンプトから、一見無限のカテゴリのリアルな画像を合成できます。任意の構成と組み合わせ。この強力なテクノロジーは、フォトフォレンジックコミュニティに新たな課題をもたらします。テキストによるペイントが明示的な幾何学的または物理的モデルに基づいていないという事実、および照明の不一致に対する人間の視覚系の一般的な鈍感さに動機付けられて、物理学かどうかを判断するために、DALL-E-2合成画像の照明の一貫性の最初の調査を提供しますベースのフォレンジック分析は、この新しい種類の合成メディアの検出に有益であることが証明されます。
Whereas generative adversarial networks are capable of synthesizing highly realistic images of faces, cats, landscapes, or almost any other single category, paint-by-text synthesis engines can -- from a single text prompt -- synthesize realistic images of seemingly endless categories with arbitrary configurations and combinations. This powerful technology poses new challenges to the photo-forensic community. Motivated by the fact that paint by text is not based on explicit geometric or physical models, and the human visual system's general insensitivity to lighting inconsistencies, we provide an initial exploration of the lighting consistency of DALL-E-2 synthesized images to determine if physics-based forensic analyses will prove fruitful in detecting this new breed of synthetic media.
updated: Wed Jul 27 2022 18:48:36 GMT+0000 (UTC)
published: Wed Jul 27 2022 18:48:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト