arXiv reaDer
ゴーグル:アフィニティコーディングによる自動画像ラベリング
GOGGLES: Automatic Image Labeling with Affinity Coding
 ラベル付きの大きなトレーニングデータを生成することは、教師あり機械学習モデルの構築と展開における最大のボトルネックになりつつあります。最近、トレーニングデータのラベル付けにおける人件費を削減するために、データプログラミングパラダイムが提案されました。ただし、データプログラミングは、ドメインの専門知識が依然として必要なラベリング関数の設計に依存しています。また、画像(ピクセル)の生の特徴を使用してドメインの知識を表現するのが難しいため、画像データセットのラベリング関数を記述することは非常に困難です。アフィニティコーディング、自動化されたトレーニングデータのラベリングのための新しいドメインに依存しないパラダイムを提案します。アフィニティコーディングの基本的な前提は、いくつかのアフィニティ関数によると、平均して同じクラスに属するインスタンスペアのアフィニティスコアは、異なるクラスに属するペアのアフィニティスコアよりも高くなければならないということです。画像の再利用可能なアフィニティ関数の新しいセットを設計することにより、画像データセットのラベル付けのためのアフィニティコーディングを実装するGOGGLESシステムを構築し、小さな開発セットを使用したクラス推論の新しい階層型生成モデルを提案します。さまざまなドメインの5つの画像ラベリングタスクについて、GOGGLESと既存のデータプログラミングシステムを比較します。 GOGGLESは、人間による広範な注釈を必要とせずに、最低71%から最高98%の範囲のラベル付け精度を達成します。エンドツーエンドのパフォーマンスの観点から、GOGGLESは最先端のデータプログラミングシステムSnubaよりも21%、最先端の少数ショット学習手法よりも5%優れており、わずか7%です。完全に監視された上限から離れます。
Generating large labeled training data is becoming the biggest bottleneck in building and deploying supervised machine learning models. Recently, the data programming paradigm has been proposed to reduce the human cost in labeling training data. However, data programming relies on designing labeling functions which still requires significant domain expertise. Also, it is prohibitively difficult to write labeling functions for image datasets as it is hard to express domain knowledge using raw features for images (pixels). We propose affinity coding, a new domain-agnostic paradigm for automated training data labeling. The core premise of affinity coding is that the affinity scores of instance pairs belonging to the same class on average should be higher than those of pairs belonging to different classes, according to some affinity functions. We build the GOGGLES system that implements affinity coding for labeling image datasets by designing a novel set of reusable affinity functions for images, and propose a novel hierarchical generative model for class inference using a small development set. We compare GOGGLES with existing data programming systems on 5 image labeling tasks from diverse domains. GOGGLES achieves labeling accuracies ranging from a minimum of 71% to a maximum of 98% without requiring any extensive human annotation. In terms of end-to-end performance, GOGGLES outperforms the state-of-the-art data programming system Snuba by 21% and a state-of-the-art few-shot learning technique by 5%, and is only 7% away from the fully supervised upper bound.
updated: Tue Mar 03 2020 06:30:24 GMT+0000 (UTC)
published: Mon Mar 11 2019 19:19:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト