arXiv reaDer
低ショット検証:まれなカテゴリで分類器のパフォーマンスを推定するためのアクティブな重要度サンプリング
Low-Shot Validation: Active Importance Sampling for Estimating Classifier Performance on Rare Categories
限られたラベル付きトレーニングデータでトレーニングされた機械学習モデルの場合、検証は、全体的な注釈コストを削減するための主なボトルネックになります。評価する関連する例を見つけることが特に難しい、まれなカテゴリの二項分類器のFスコアを正確に推定する統計的検証アルゴリズムを提案します。私たちの重要な洞察は、キャリブレーションと重要度サンプリングを同時に行うことで、低サンプルレジーム(<300サンプル)でも正確な推定が可能になるということです。重要なことに、私たちはまた、私たちの方法の分散の正確な単一試行推定量を導き出し、この推定量が少ないサンプル数で経験的に正確であることを示し、開業医が与えられた低いサンプル推定値をどれだけ信頼できるかを知ることを可能にします。 ImageNetとiNaturalist2017で最先端の半教師ありモデルを検証する場合、私たちの方法は、競合するアプローチよりも最大10分の1のラベルで、モデルのパフォーマンスの同じ推定値を達成します。特に、わずか100個のラベルを使用して、分散が0.005のモデルF1スコアを推定できます。
For machine learning models trained with limited labeled training data, validation stands to become the main bottleneck to reducing overall annotation costs. We propose a statistical validation algorithm that accurately estimates the F-score of binary classifiers for rare categories, where finding relevant examples to evaluate on is particularly challenging. Our key insight is that simultaneous calibration and importance sampling enables accurate estimates even in the low-sample regime (< 300 samples). Critically, we also derive an accurate single-trial estimator of the variance of our method and demonstrate that this estimator is empirically accurate at low sample counts, enabling a practitioner to know how well they can trust a given low-sample estimate. When validating state-of-the-art semi-supervised models on ImageNet and iNaturalist2017, our method achieves the same estimates of model performance with up to 10x fewer labels than competing approaches. In particular, we can estimate model F1 scores with a variance of 0.005 using as few as 100 labels.
updated: Mon Sep 13 2021 06:01:16 GMT+0000 (UTC)
published: Mon Sep 13 2021 06:01:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト