arXiv reaDer
ディープ生成画像の統計
Statistics of Deep Generated Images
 ここでは、最先端の深層生成モデルによって生成された画像の低レベル統計を調べます。最初に、変分オートエンコーダー(VAE〜kingma2013auto)、Wasserstein生成的敵対ネットワーク(WGAN〜arjovsky2017wasserstein)、および深い畳み込み生成的敵対ネットワーク(DCGAN〜radford2015unsupervised)がImageNetデータセットとアニメーションからの漫画フレームの大きなセットで訓練されます。次に、これらのモデルと自然のシーンや漫画によって生成された画像について、平均パワースペクトル、特定の画像領域の連結成分の数、ランダムフィルター応答の分布、コントラスト分布を含む統計が計算されます。トレーニング画像の分析は、自然シーンのスケール不変性、非ガウス性、およびワイブルコントラスト分布に関する現在の調査結果をサポートしています。同様の結果が漫画の画像にも当てはまりますが、自然のシーンの統計とVAE、DCGAN、およびWGANモデルによって生成された画像には大きな違いがあります。特に、生成された画像にはスケール不変の平均パワースペクトルの大きさがありません。これは、これらの画像に余分な構造が存在することを示しています。深層生成画像の統計が、スケール不変性、非ガウス性、ワイブルコントラスト分布などの自然画像の既知の統計特性とどの程度一致しているかを調べることで、a)深層学習モデルが自然のシーンの本質を捉える程度を明らかにすることができます、b)モデルを評価するための新しい次元を提供し、c)画像生成モデルの可能な改善を可能にします(たとえば、新しい損失関数を定義することにより)。
Here, we explore the low-level statistics of images generated by state-of-the-art deep generative models. First, Variational auto-encoder (VAE~kingma2013auto), Wasserstein generative adversarial network (WGAN~arjovsky2017wasserstein) and deep convolutional generative adversarial network (DCGAN~radford2015unsupervised) are trained on the ImageNet dataset and a large set of cartoon frames from animations. Then, for images generated by these models as well as natural scenes and cartoons, statistics including mean power spectrum, the number of connected components in a given image area, distribution of random filter responses, and contrast distribution are computed. Our analyses on training images support current findings on scale invariance, non-Gaussianity, and Weibull contrast distribution of natural scenes. We find that although similar results hold over cartoon images, there is still a significant difference between statistics of natural scenes and images generated by VAE, DCGAN and WGAN models. In particular, generated images do not have scale invariant mean power spectrum magnitude, which indicates existence of extra structures in these images. Inspecting how well the statistics of deep generated images match the known statistical properties of natural images, such as scale invariance, non-Gaussianity, and Weibull contrast distribution, can a) reveal the degree to which deep learning models capture the essence of the natural scenes, b) provide a new dimension to evaluate models, and c) allow possible improvement of image generative models (e.g., via defining new loss functions).
updated: Sun Nov 24 2019 02:59:10 GMT+0000 (UTC)
published: Wed Aug 09 2017 01:12:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト