現在、グラウンド トゥルースの生成には、クラウドベースの注釈サービスによって注釈が付けられたデータ セットが使用されています。これらのサービスは人間による注釈に依存しており、法外な費用がかかる可能性があります。このホワイトペーパーでは、データセットの一部に正確に自動ラベル付けするように分類器をトレーニングするハイブリッドヒューマンマシンラベリングの問題を検討します。ただし、分類器のトレーニングもコストがかかる可能性があります。各ステップで、人間を使用してどのサンプルにラベルを付けるか、訓練された分類子を使用してどのサンプルにラベルを付けるかを共同で決定することにより、総コストを最小限に抑える反復アプローチを提案します。 Fashion-MNIST、CIFAR-10、CIFAR-100、ImageNet などのよく知られた公開データ セットでアプローチを検証します。場合によっては、私たちのアプローチは、データ セット全体を人間がラベル付けする場合と比較して全体のコストが 6 分の 1 であり、最も安価な競合戦略よりも常に安価です。
Today, ground-truth generation uses data sets annotated by cloud-based annotation services. These services rely on human annotation, which can be prohibitively expensive. In this paper, we consider the problem of hybrid human-machine labeling, which trains a classifier to accurately auto-label part of the data set. However, training the classifier can be expensive too. We propose an iterative approach that minimizes total overall cost by, at each step, jointly determining which samples to label using humans and which to label using the trained classifier. We validate our approach on well known public data sets such as Fashion-MNIST, CIFAR-10, CIFAR-100, and ImageNet. In some cases, our approach has 6x lower overall cost relative to human labeling the entire data set, and is always cheaper than the cheapest competing strategy.