トレーニングデータは、機械学習の最新のアプリケーションで重要な役割を果たします。ただし、ラベル付きのトレーニングデータの収集には時間がかかります。したがって、ラベル付けは経験の少ないユーザーにアウトソーシングされるか、完全に自動化されることがよくあります。これによりエラーが発生し、貴重なトレーニングデータが損なわれ、最適なトレーニング結果が得られない可能性があります。したがって、事前学習済み分類子の力を使用してユーザーを視覚的にノイズの多いラベルに導き、エラー候補をインタラクティブにチェックして、トレーニングデータセットを反復的に改善する新しいアプローチを提案します。トレーニングデータを体系的に調査するために、ラベル取得プロセスの潜在的な落とし穴の分析に基づいて、ラベル付けエラーを3つの異なるタイプに分類することを提案します。これらのタイプごとに、機械学習ユーザーをサポートするための対策と視覚的ガイダンス手法を提案する際に、エラー候補を検出、推論、および解決するためのアプローチを示します。私たちのアプローチは、よく知られている機械学習ベンチマークデータセットのエラーを見つけるために使用されており、ユーザーの評価中にその使いやすさをテストしました。最初に画像用に開発されましたが、このホワイトペーパーで紹介する手法は分類アルゴリズムに依存せず、他の多くのタイプのトレーニングデータにも拡張できます。
Training data plays an essential role in modern applications of machine learning. However, gathering labeled training data is time-consuming. Therefore, labeling is often outsourced to less experienced users, or completely automated. This can introduce errors, which compromise valuable training data, and lead to suboptimal training results. We thus propose a novel approach that uses the power of pretrained classifiers to visually guide users to noisy labels, and let them interactively check error candidates, to iteratively improve the training data set. To systematically investigate training data, we propose a categorization of labeling errors into three different types, based on an analysis of potential pitfalls in label acquisition processes. For each of these types, we present approaches to detect, reason about, and resolve error candidates, as we propose measures and visual guidance techniques to support machine learning users. Our approach has been used to spot errors in well-known machine learning benchmark data sets, and we tested its usability during a user evaluation. While initially developed for images, the techniques presented in this paper are independent of the classification algorithm, and can also be extended to many other types of training data.