arXiv reaDer
生成モデルの評価指標の欠陥と拡散モデルの不公平な扱いを暴露する
Exposing flaws of generative model evaluation metrics and their unfair treatment of diffusion models
私たちは、意味的に多様なデータセットにわたるさまざまな画像ベースの生成モデルを系統的に研究し、それらを評価するために使用される特徴抽出器と指標を理解し、改善します。心理物理学のベストプラクティスを使用して、これまでの生成モデルを評価する最大規模の実験を実施することで、生成されたサンプルに対する画像のリアリズムに対する人間の認識を測定しました。その結果、人間の評価と強く相関する既存の測定基準はないことがわかりました。生成モデルの全体的なパフォーマンス、忠実度、多様性、記憶を評価するための 16 の最新の指標と比較すると、人間が判断する拡散モデルの最先端の知覚的リアリズムは、一般に報告されている次のような指標には反映されていないことがわかります。 FID。この不一致は、生成されたサンプルの多様性では説明できませんが、原因の 1 つは Inception-V3 への過度の依存です。私たちは、代替の自己教師あり特徴抽出器の研究を通じてこれらの欠陥に対処し、個々のネットワークによってエンコードされた意味情報がトレーニング手順に強く依存していることを発見し、DINOv2-ViT-L/14 が生成モデルのより豊富な評価を可能にすることを示します。次に、データの記憶を調査し、生成モデルは CIFAR10 のような単純で小規模なデータセットのトレーニング例を記憶しますが、ImageNet のようなより複雑なデータセットでは必ずしも記憶しないことがわかりました。ただし、私たちの実験では、現在のメトリクスでは暗記が適切に検出されないことが示されています。文献には、暗記をアンダーフィッティングやモード収縮などの他の現象から分離できるものはありません。生成モデルとその評価のさらなる開発を促進するために、生成されたすべての画像データセット、人間による評価データ、および 8 つの異なるエンコーダーの 16 の共通メトリクスを計算するモジュール式ライブラリを https://github.com/layer6ai-labs/dgm-eval でリリースします。 。
We systematically study a wide variety of image-based generative models spanning semantically-diverse datasets to understand and improve the feature extractors and metrics used to evaluate them. Using best practices in psychophysics, we measure human perception of image realism for generated samples by conducting the largest experiment evaluating generative models to date, and find that no existing metric strongly correlates with human evaluations. Comparing to 16 modern metrics for evaluating the overall performance, fidelity, diversity, and memorization of generative models, we find that the state-of-the-art perceptual realism of diffusion models as judged by humans is not reflected in commonly reported metrics such as FID. This discrepancy is not explained by diversity in generated samples, though one cause is over-reliance on Inception-V3. We address these flaws through a study of alternative self-supervised feature extractors, find that the semantic information encoded by individual networks strongly depends on their training procedure, and show that DINOv2-ViT-L/14 allows for much richer evaluation of generative models. Next, we investigate data memorization, and find that generative models do memorize training examples on simple, smaller datasets like CIFAR10, but not necessarily on more complex datasets like ImageNet. However, our experiments show that current metrics do not properly detect memorization; none in the literature is able to separate memorization from other phenomena such as underfitting or mode shrinkage. To facilitate further development of generative models and their evaluation we release all generated image datasets, human evaluation data, and a modular library to compute 16 common metrics for 8 different encoders at https://github.com/layer6ai-labs/dgm-eval.
updated: Wed Jun 07 2023 18:00:00 GMT+0000 (UTC)
published: Wed Jun 07 2023 18:00:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト