「野外」での機械学習のパフォーマンスの推定は、重要かつ未解決の問題です。このペーパーでは、分類モデルの点ごとの能力を調べ、理解し、予測することを目指します。私たちの貢献は2つあります。まず、分類子の信頼度の一般的な概念を一般化する能力の統計的に厳密な定義を確立します。次に、ALICE(正確な層ごとに解釈可能な能力推定)スコア、あらゆる分類子の点ごとの能力推定量を提示します。分布、データ、およびモデルの不確実性を考慮することにより、ALICEは、クラスの不均衡なデータセット、非配布データセット、不十分な訓練を受けたモデルなどの一般的な障害状況における正確な能力推定を経験的に示します。当社の貢献により、入力およびエラー関数が与えられた場合の分類モデルの能力を正確に予測することができます。モデルの信頼性や信頼スコアなどの最新の信頼性推定量とスコアを比較し、DIGITS、CIFAR10、CIFAR100などのデータセットでこれらのメソッドを超える能力予測の大幅な改善を示しています。
Estimating machine learning performance 'in the wild' is both an important and unsolved problem. In this paper, we seek to examine, understand, and predict the pointwise competence of classification models. Our contributions are twofold: First, we establish a statistically rigorous definition of competence that generalizes the common notion of classifier confidence; second, we present the ALICE (Accurate Layerwise Interpretable Competence Estimation) Score, a pointwise competence estimator for any classifier. By considering distributional, data, and model uncertainty, ALICE empirically shows accurate competence estimation in common failure situations such as class-imbalanced datasets, out-of-distribution datasets, and poorly trained models. Our contributions allow us to accurately predict the competence of any classification model given any input and error function. We compare our score with state-of-the-art confidence estimators such as model confidence and Trust Score, and show significant improvements in competence prediction over these methods on datasets such as DIGITS, CIFAR10, and CIFAR100.