arXiv reaDer
校正誤差推定におけるバイアスの軽減
Mitigating Bias in Calibration Error Estimation
信頼性の高い機械学習システムを構築するには、その信頼度を正しく理解する必要があります。キャリブレーションは、モデルの信頼度の精度を測定します。キャリブレーションのほとんどの研究は、キャリブレーションエラーの経験的推定ECE_binを改善する手法に焦点を当てています。モデルの誤校正の性質、評価データセットのサイズ、およびビンの数に応じて、ECE_binが実際の校正エラーを体系的に過小評価または過大評価できることを経験的に示すことができるシミュレーションフレームワークを紹介します。重要なことに、ECE_binは、完全に調整されたモデルに対してより強くバイアスされていることがわかります。キャリブレーション関数の単調性を維持しながら、ビンの数ができるだけ多くなるように選択される、単純な代替キャリブレーションエラーメトリックECE_sweepを提案します。 CIFAR-10、CIFAR-100、およびImageNetのニューラルネットワーク信頼スコアに適合する分布の測定値を評価すると、ECE_sweepはキャリブレーションエラーのバイアスの少ない推定量を生成するため、モデルのキャリブレーションを評価したい研究者が使用する必要があることを示します。同様のデータセットでトレーニングされています。
Building reliable machine learning systems requires that we correctly understand their level of confidence. Calibration measures the degree of accuracy in a model's confidence and most research in calibration focuses on techniques to improve an empirical estimate of calibration error, ECE_bin. We introduce a simulation framework that allows us to empirically show that ECE_bin can systematically underestimate or overestimate the true calibration error depending on the nature of model miscalibration, the size of the evaluation data set, and the number of bins. Critically, we find that ECE_bin is more strongly biased for perfectly calibrated models. We propose a simple alternative calibration error metric, ECE_sweep, in which the number of bins is chosen to be as large as possible while preserving monotonicity in the calibration function. Evaluating our measure on distributions fit to neural network confidence scores on CIFAR-10, CIFAR-100, and ImageNet, we show that ECE_sweep produces a less biased estimator of calibration error and therefore should be used by any researcher wishing to evaluate the calibration of models trained on similar datasets.
updated: Wed Feb 24 2021 19:25:00 GMT+0000 (UTC)
published: Tue Dec 15 2020 23:28:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト