直感的に、不慣れは自信の欠如につながるはずです。実際には、現在のアルゴリズムは、関連性はあるがなじみのない例に直面したときに、非常に自信がありながら誤った予測を行うことがよくあります。性別を認識するようにトレーニングした分類子は、トレーニング中に見られたものとは異なる年齢層の被験者を提示した場合、99%の確信のある予測で12倍間違っている可能性があります。このホワイトペーパーでは、いくつかの方法を比較および評価して、見知らぬサンプルや馴染みのあるサンプルの信頼度推定を改善します。不慣れで馴染みのあるサンプルを属性(年齢、品種、サブカテゴリ)またはサンプリング(異なる時期に異なる人が収集した類似のデータセット)で分割するテスト方法を提案します。信頼性キャリブレーション、アンサンブル、蒸留、ベイジアンモデルなどのメソッドを評価し、いくつかのメトリックを使用して、ラベル、尤度、およびキャリブレーションエラーを分析します。すべての方法で自信過剰のエラーが減少しますが、キャリブレーションされたモデルのアンサンブルは全体的に最高のパフォーマンスを発揮し、Tスケーリングは推論が最も速いアプローチの中で最高のパフォーマンスを発揮します。コードはhttps://github.com/lizhitwo/ConfidenceEstimatesで入手できます。 red更新されたエラッタをご覧ください。
Intuitively, unfamiliarity should lead to lack of confidence. In reality, current algorithms often make highly confident yet wrong predictions when faced with relevant but unfamiliar examples. A classifier we trained to recognize gender is 12 times more likely to be wrong with a 99% confident prediction if presented with a subject from a different age group than those seen during training. In this paper, we compare and evaluate several methods to improve confidence estimates for unfamiliar and familiar samples. We propose a testing methodology of splitting unfamiliar and familiar samples by attribute (age, breed, subcategory) or sampling (similar datasets collected by different people at different times). We evaluate methods including confidence calibration, ensembles, distillation, and a Bayesian model and use several metrics to analyze label, likelihood, and calibration error. While all methods reduce over-confident errors, the ensemble of calibrated models performs best overall, and T-scaling performs best among the approaches with fastest inference. Our code is available at https://github.com/lizhitwo/ConfidenceEstimates . redPlease see UPDATED ERRATA.