arXiv reaDer
Multi-Colorspace fusedEfficientNetを使用して自然画像とコンピューター生成画像を区別する
Distinguishing Natural and Computer-Generated Images using Multi-Colorspace fused EfficientNet
自然画像と写実的なコンピュータ生成画像を区別する問題は、自然画像とコンピュータグラフィックス、または自然画像とGAN画像のいずれかに一度に対処します。しかし、実際の画像フォレンジックシナリオでは、ほとんどの場合画像生成が不明であるため、画像生成のすべてのカテゴリを考慮することが非常に重要です。私たちは初めて、自然画像と写実的なコンピューター生成画像を区別する問題に、自然画像、コンピューターグラフィックス、GAN画像を分類する3つのクラスの分類タスクとしてアプローチします。このタスクでは、さまざまな色空間変換の有効性を分析した後に選択された、各ネットワークが異なる色空間、RGB、LCH、およびHSVで動作する転送学習方法に従って、3つのEfficientNetネットワークを並列に融合することにより、マルチ色空間融合EfficientNetモデルを提案します。画像フォレンジックの問題。私たちのモデルは、精度、後処理に対する堅牢性、および他のデータセットに対する一般化可能性の点でベースラインを上回っています。精神物理学の実験を行って、人間が自然画像、コンピューターグラフィックス画像、GAN画像をどれだけ正確に区別できるかを理解します。人間はこれらの画像、特にコンピューターで生成された画像を分類するのが困難であり、タスクの計算アルゴリズムの必要性を示しています。また、視覚的な説明を通じてモデルの動作を分析し、モデルの意思決定に寄与する顕著な領域を理解し、領域マーキングの形で人間の参加者によって提供された手動の説明と比較します。ここでは、強力なことを示す両方の説明の類似性を観察できました。意思決定を有意義に行うためのモデルの性質。
The problem of distinguishing natural images from photo-realistic computer-generated ones either addresses natural images versus computer graphics or natural images versus GAN images, at a time. But in a real-world image forensic scenario, it is highly essential to consider all categories of image generation, since in most cases image generation is unknown. We, for the first time, to our best knowledge, approach the problem of distinguishing natural images from photo-realistic computer-generated images as a three-class classification task classifying natural, computer graphics, and GAN images. For the task, we propose a Multi-Colorspace fused EfficientNet model by parallelly fusing three EfficientNet networks that follow transfer learning methodology where each network operates in different colorspaces, RGB, LCH, and HSV, chosen after analyzing the efficacy of various colorspace transformations in this image forensics problem. Our model outperforms the baselines in terms of accuracy, robustness towards post-processing, and generalizability towards other datasets. We conduct psychophysics experiments to understand how accurately humans can distinguish natural, computer graphics, and GAN images where we could observe that humans find difficulty in classifying these images, particularly the computer-generated images, indicating the necessity of computational algorithms for the task. We also analyze the behavior of our model through visual explanations to understand salient regions that contribute to the model's decision making and compare with manual explanations provided by human participants in the form of region markings, where we could observe similarities in both the explanations indicating the powerful nature of our model to take the decisions meaningfully.
updated: Mon Oct 18 2021 15:55:45 GMT+0000 (UTC)
published: Mon Oct 18 2021 15:55:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト