Classification Accuracy Score for Conditional Generative Models
画像のディープ生成モデル(DGM)は十分に成熟しており、フォトリアリスティックに近いサンプルを生成し、フレシェ開始距離(FID)などのヒューリスティック上のデータ分布と同様のスコアを取得します。これらの結果は、特にImageNetなどの大規模なデータセットで、DGMが知覚的に意味のある空間でデータ分布を学習しており、ダウンストリームタスクで使用できることを示唆しています。この後者の仮説をテストするために、実際のデータのクラスラベルを推測するために、さまざまなモデルクラス(変種オートエンコーダー、自己回帰モデル、および生成的敵対ネットワーク(GAN))からのクラス条件付き生成モデルを使用します。この推論は、合成データのみを使用して画像分類器をトレーニングし、分類器を使用して実際のデータのラベルを予測することにより実行されます。分類精度スコア(CAS)と呼ばれるこのタスクのパフォーマンスは、従来のメトリックでは特定されない驚くべき結果を明らかにし、私たちの貢献を構成しています。まず、最新のGAN(BigGAN-deep)を使用すると、Top-1およびTop-5の精度は、元のデータと比較して、それぞれ27.9%および41.6%低下します。ベクトル量子化変分オートエンコーダー2(VQ-VAE-2)や階層自己回帰モデル(HAM)などの他のモデルクラスの条件付き生成モデルは、このベンチマークでGANを大幅に上回ります。第二に、CASは、生成モデルがデータ分布のキャプチャに失敗した特定のクラスを自動的に表面化し、文献ではこれまで知られていませんでした。 3番目に、Inception Score(IS)やFIDなどの従来のGANメトリクスは、CASを予測せず、非GANモデルを評価する際にも有用ではないことがわかります。さらに、生成モデルのより良い診断を容易にするために、提案されたメトリックをオープンソース化します。
Deep generative models (DGMs) of images are now sufficiently mature that they produce nearly photorealistic samples and obtain scores similar to the data distribution on heuristics such as Frechet Inception Distance (FID). These results, especially on large-scale datasets such as ImageNet, suggest that DGMs are learning the data distribution in a perceptually meaningful space and can be used in downstream tasks. To test this latter hypothesis, we use class-conditional generative models from a number of model classes---variational autoencoders, autoregressive models, and generative adversarial networks (GANs)---to infer the class labels of real data. We perform this inference by training an image classifier using only synthetic data and using the classifier to predict labels on real data. The performance on this task, which we call Classification Accuracy Score (CAS), reveals some surprising results not identified by traditional metrics and constitute our contributions. First, when using a state-of-the-art GAN (BigGAN-deep), Top-1 and Top-5 accuracy decrease by 27.9% and 41.6%, respectively, compared to the original data; and conditional generative models from other model classes, such as Vector-Quantized Variational Autoencoder-2 (VQ-VAE-2) and Hierarchical Autoregressive Models (HAMs), substantially outperform GANs on this benchmark. Second, CAS automatically surfaces particular classes for which generative models failed to capture the data distribution, and were previously unknown in the literature. Third, we find traditional GAN metrics such as Inception Score (IS) and FID neither predictive of CAS nor useful when evaluating non-GAN models. Furthermore, in order to facilitate better diagnoses of generative models, we open-source the proposed metric.
updated: Mon Oct 28 2019 10:49:54 GMT+0000 (UTC)
published: Sun May 26 2019 21:41:44 GMT+0000 (UTC)
