arXiv reaDer
フレシェ開始距離におけるImageNetクラスの役割
The Role of ImageNet Classes in Fréchet Inception Distance
フレシェ開始距離(FID)は、画像の2つの分布間の距離を定量化するためのメトリックです。データ駆動型生成モデリング研究でモデルをランク付けするための標準的な基準としてのステータスを考えると、距離が一般的な「ビジョン関連」の特徴から計算されることが重要であるように思われます。しかし、それはそうですか? FIDは、基本的にImageNetクラスの確率のセット間の距離であることがわかります。その理由は、特定のInception-V3分類器ネットワークの最後から2番目の「プレロジット」レイヤーである標準機能スペースが、ロジット、つまりImageNetクラス、つまり機能から1つのアフィン変換にすぎないという事実にまでさかのぼります。必然的にそれらに高度に特化しています。これは、メトリックの感度に直感的でない結果をもたらします。たとえば、人間の顔のモデルを評価する場合、平均して、FIDは実際には顔の領域に非常に鈍感であり、「蝶ネクタイ」や「シートベルト」などのクラスの確率がはるかに大きな役割を果たすことがわかります。さらに、最初にわずかに大きな候補のセットを生成し、次にそのような「フリンジ機能」のヒストグラムに一致するサブセットを選択する攻撃によって、FIDを大幅に削減できることを示します(実際には結果の品質を向上させることはありません)。 "実際のデータで。次に、この観察結果が、GANのImageNet事前トレーニングの場合に実用的な関連性があることを示します。この場合、観察されたFIDの改善の一部は現実的ではないことがわかります。私たちの結果は、FIDの改善を過度に解釈することに対する注意を示唆し、より知覚的に均一な分布メトリックの必要性を強調しています。
Fréchet Inception Distance (FID) is a metric for quantifying the distance between two distributions of images. Given its status as a standard yardstick for ranking models in data-driven generative modeling research, it seems important that the distance is computed from general, "vision-related" features. But is it? We observe that FID is essentially a distance between sets of ImageNet class probabilities. We trace the reason to the fact that the standard feature space, the penultimate "pre-logit" layer of a particular Inception-V3 classifier network, is only one affine transform away from the logits, i.e., ImageNet classes, and thus, the features are necessarily highly specialized to them. This has unintuitive consequences for the metric's sensitivity. For example, when evaluating a model for human faces, we observe that, on average, FID is actually very insensitive to the facial region, and that the probabilities of classes like "bow tie" or "seat belt" play a much larger role. Further, we show that FID can be significantly reduced -- without actually improving the quality of results -- by an attack that first generates a slightly larger set of candidates, and then chooses a subset that happens to match the histogram of such "fringe features" in the real data. We then demonstrate that this observation has practical relevance in case of ImageNet pre-training of GANs, where a part of the observed FID improvement turns out not to be real. Our results suggest caution against over-interpreting FID improvements, and underline the need for distribution metrics that are more perceptually uniform.
updated: Fri Mar 11 2022 15:50:06 GMT+0000 (UTC)
published: Fri Mar 11 2022 15:50:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト