HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models
 生成モデルは、多くの場合、人間の評価を使用して、出力の知覚品質を測定します。自動化されたメトリックは、ヒューリスティックまたは事前トレーニングされた埋め込みに依存しているため、ノイズの多い間接プロキシです。しかし、これまで、直接的な人間の評価戦略はアドホックであり、標準化も検証もされていませんでした。私たちの仕事は、生成的リアリズムのゴールドスタンダードの人間のベンチマークを確立します。 Human eYe Perceptual Evaluation(HYPE)は、(1)知覚の心理物理学研究に基づいている、(2)モデルからランダムにサンプリングされた出力の異なるセットで信頼できる、(3)分離可能なモデルパフォーマンスを生成できる人間のベンチマーク、 (4)コストと時間の効率化。 2つのバリアントを導入します。1つはモデルの出力が実際に現れるしきい値(250msなど)を決定する適応時間制約の下で視覚を測定し、もう1つは時間制約なしで偽物と実画像のヒューマンエラー率を測定する安価なバリアントです。 CelebA、FFHQ、CIFAR-10、ImageNetの4つのデータセットを使用して、条件付きおよび無条件の画像生成に関する6つの最先端の生成的敵対ネットワークと2つのサンプリング手法でHYPEをテストします。 HYPEはトレーニングエポック全体でモデルの改善を追跡できることがわかり、ブートストラップサンプリングを介してHYPEランキングが一貫しており、複製可能であることを確認します。
Generative models often use human evaluations to measure the perceived quality of their outputs. Automated metrics are noisy indirect proxies, because they rely on heuristics or pretrained embeddings. However, up until now, direct human evaluation strategies have been ad-hoc, neither standardized nor validated. Our work establishes a gold standard human benchmark for generative realism. We construct Human eYe Perceptual Evaluation (HYPE) a human benchmark that is (1) grounded in psychophysics research in perception, (2) reliable across different sets of randomly sampled outputs from a model, (3) able to produce separable model performances, and (4) efficient in cost and time. We introduce two variants: one that measures visual perception under adaptive time constraints to determine the threshold at which a model's outputs appear real (e.g. 250ms), and the other a less expensive variant that measures human error rate on fake and real images sans time constraints. We test HYPE across six state-of-the-art generative adversarial networks and two sampling techniques on conditional and unconditional image generation using four datasets: CelebA, FFHQ, CIFAR-10, and ImageNet. We find that HYPE can track model improvements across training epochs, and we confirm via bootstrap sampling that HYPE rankings are consistent and replicable.
updated: Thu Oct 31 2019 23:43:11 GMT+0000 (UTC)
published: Mon Apr 01 2019 21:48:41 GMT+0000 (UTC)
