arXiv reaDer
校正誤差推定におけるバイアスの緩和
Mitigating bias in calibration error estimation
信頼性の高い機械学習システムを構築するには、その信頼度を正しく理解する必要があります。キャリブレーションは、モデルの信頼度の精度の測定に焦点を当てており、キャリブレーションのほとんどの研究は、キャリブレーションエラーの経験的推定ECE_binを改善する手法に焦点を当てています。シミュレーションを使用して、ECE_binが、モデルの誤校正の性質、評価データセットのサイズ、およびビンの数に応じて、真の校正エラーを体系的に過小評価または過大評価できることを示します。重要なことに、ECE_binは、完全に調整されたモデルに対してより強くバイアスされています。キャリブレーション関数の単調性を維持しながら、ビンの数ができるだけ多くなるように選択される、単純な代替キャリブレーションエラーメトリックECE_sweepを提案します。 CIFAR-10、CIFAR-100、およびImageNetのニューラルネットワーク信頼スコアに適合する分布の測定値を評価すると、ECE_sweepはキャリブレーションエラーのバイアスの少ない推定量を生成するため、モデルのキャリブレーションを評価したい研究者が使用する必要があることを示します。同様のデータセットでトレーニングされています。
Building reliable machine learning systems requires that we correctly understand their level of confidence. Calibration focuses on measuring the degree of accuracy in a model's confidence and most research in calibration focuses on techniques to improve an empirical estimate of calibration error, ECE_bin. Using simulation, we show that ECE_bin can systematically underestimate or overestimate the true calibration error depending on the nature of model miscalibration, the size of the evaluation data set, and the number of bins. Critically, ECE_bin is more strongly biased for perfectly calibrated models. We propose a simple alternative calibration error metric, ECE_sweep, in which the number of bins is chosen to be as large as possible while preserving monotonicity in the calibration function. Evaluating our measure on distributions fit to neural network confidence scores on CIFAR-10, CIFAR-100, and ImageNet, we show that ECE_sweep produces a less biased estimator of calibration error and therefore should be used by any researcher wishing to evaluate the calibration of models trained on similar datasets.
updated: Tue Dec 15 2020 23:28:06 GMT+0000 (UTC)
published: Tue Dec 15 2020 23:28:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト