arXiv reaDer
アクティブラベルクリーニング:リソースの制約下でのデータセット品質の向上
Active label cleaning: Improving dataset quality under resource constraints
ラベルノイズとして知られるデータ注釈の欠陥は、機械学習モデルのトレーニングに悪影響を及ぼし、モデルのパフォーマンスの評価に見過ごされがちな交絡効果をもたらします。それにもかかわらず、専門家を雇って大きなデータセットに完全に再注釈を付けることでラベルノイズを除去することは、ヘルスケアなどのリソースに制約のある設定では実行不可能です。この作業は、再注釈付けのためにサンプルに優先順位を付けるためのデータ駆動型アプローチを提唱しています。これを「アクティブラベルクリーニング」と呼びます。各サンプルの推定ラベルの正確性とラベル付けの難しさに従ってインスタンスをランク付けすることを提案し、再ラベル付けの有効性を評価するためのシミュレーションフレームワークを導入します。自然画像と新しい医用画像ベンチマークに関する実験では、ノイズの多いラベルをクリーニングすると、モデルのトレーニング、評価、選択への悪影響が軽減されることが示されています。重要なことに、提案されたアクティブラベルクリーニングにより、現実的な条件での通常のランダム選択よりも最大4倍効果的にラベルを修正でき、データセットの品質を向上させるために専門家の貴重な時間を有効に活用できます。
Imperfections in data annotation, known as label noise, are detrimental to the training of machine learning models and have an often-overlooked confounding effect on the assessment of model performance. Nevertheless, employing experts to remove label noise by fully re-annotating large datasets is infeasible in resource-constrained settings, such as healthcare. This work advocates for a data-driven approach to prioritising samples for re-annotation - which we term "active label cleaning". We propose to rank instances according to estimated label correctness and labelling difficulty of each sample, and introduce a simulation framework to evaluate relabelling efficacy. Our experiments on natural images and on a new medical imaging benchmark show that cleaning noisy labels mitigates their negative impact on model training, evaluation, and selection. Crucially, the proposed active label cleaning enables correcting labels up to 4 times more effectively than typical random selection in realistic conditions, making better use of experts' valuable time for improving dataset quality.
updated: Wed Sep 01 2021 19:03:57 GMT+0000 (UTC)
published: Wed Sep 01 2021 19:03:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト