このホワイトペーパーでは、生成モデルで一般的に使用される2つの評価指標であるフレシェインセプション距離(FID)とインセプションスコア(IS)が偏っていることを示しています-有限サンプルセットに対して計算されたスコアの期待値は、スコア。さらに悪いことに、この論文は、バイアス項が評価される特定のモデルに依存することを示しているため、モデルAのバイアス項が小さいという理由だけで、モデルAはモデルBよりも良いスコアを得ることがありますこの効果は、一定のサンプル数で評価しても修正できません。これは、現在計算されているFIDまたはISを使用したすべての比較が信頼できないことを意味します。次に、無限数のサンプルで計算されたスコアの効果的にバイアスのない推定値を取得するためにスコアを外挿する方法を示します。これをFID_∞およびIS_∞と呼びます。同様に、この効果的にバイアスのない推定には、有限数のサンプルでのスコアの良好な推定が必要です。準モンテカルロ積分を使用すると、有限サンプルセットのFIDとISの推定値が著しく改善されることがわかります。推定されたスコアは、有限サンプルスコアの単純なドロップイン置換です。さらに、GANトレーニングで低不一致シーケンスを使用すると、生成されるジェネレーターが少し改善されることを示します。
This paper shows that two commonly used evaluation metrics for generative models, the Fréchet Inception Distance (FID) and the Inception Score (IS), are biased -- the expected value of the score computed for a finite sample set is not the true value of the score. Worse, the paper shows that the bias term depends on the particular model being evaluated, so model A may get a better score than model B simply because model A's bias term is smaller. This effect cannot be fixed by evaluating at a fixed number of samples. This means all comparisons using FID or IS as currently computed are unreliable. We then show how to extrapolate the score to obtain an effectively bias-free estimate of scores computed with an infinite number of samples, which we term FID_∞ and IS_∞. In turn, this effectively bias-free estimate requires good estimates of scores with a finite number of samples. We show that using Quasi-Monte Carlo integration notably improves estimates of FID and IS for finite sample sets. Our extrapolated scores are simple, drop-in replacements for the finite sample scores. Additionally, we show that using low discrepancy sequence in GAN training offers small improvements in the resulting generator.