機械学習の成功には高品質のデータが不可欠ですが、大規模なデータセットのラベル付けは時間とコストがかかるプロセスであることがよくあります。半教師あり学習はラベル付きデータの必要性を軽減するのに役立ちますが、アノテーター間の曖昧さと意見の相違により、ラベルの品質は未解決の問題のままです。したがって、アノテーター間の一貫性を高める 1 つのオプションとして、提案に基づくアノテーションを使用します。ただし、ラベルを提案すると、アノテーターがこの特定のラベルを支持する決定を下す可能性が高くなります。これにより、シミュレーションして除去できるバイアスが生じます。検証済みの提案ガイド付きアノテーションと修復済みラベルを使用した、費用対効果の高いラベル作成のための新しい方法 CleverLabel を提案します。 CleverLabel は、マルチドメインの実世界の画像分類ベンチマークで、以前の最先端技術と比較して、カルバック・ライブラー発散で最大 29.8% の相対的な改善を達成しながら、ラベル付けコストを最大 30.0% 削減できます。 CleverLabel は、ラベルの品質を向上させながら、大規模なデータセットを効率的にラベル付けするという課題に対する新しいソリューションを提供します。
High-quality data is crucial for the success of machine learning, but labeling large datasets is often a time-consuming and costly process. While semi-supervised learning can help mitigate the need for labeled data, label quality remains an open issue due to ambiguity and disagreement among annotators. Thus, we use proposal-guided annotations as one option which leads to more consistency between annotators. However, proposing a label increases the probability of the annotators deciding in favor of this specific label. This introduces a bias which we can simulate and remove. We propose a new method CleverLabel for Cost-effective LabEling using Validated proposal-guidEd annotations and Repaired LABELs. CleverLabel can reduce labeling costs by up to 30.0%, while achieving a relative improvement in Kullback-Leibler divergence of up to 29.8% compared to the previous state-of-the-art on a multi-domain real-world image classification benchmark. CleverLabel offers a novel solution to the challenge of efficiently labeling large datasets while also improving the label quality.