Consistency-based Semi-supervised Active Learning: Towards Minimizing Labeling Cost
アクティブラーニング(AL)は、データのラベル付けとモデルトレーニングを組み合わせて、モデルのパフォーマンスを最も向上させることができる価値の高いデータの選択に優先順位を付けることで、ラベル付けコストを最小限に抑えます。プールベースの能動学習では、アクセス可能なラベルなしデータは、ほとんどの従来の方法でのモデルトレーニングに使用されません。ここでは、ラベリングコストの最小化に向けて、ラベルなしのサンプル選択とモデルトレーニングを統合し、そのために2つの貢献をすることを提案します。まず、半教師あり学習(SSL)を使用してラベル付きデータとラベルなしデータの両方を活用し、トレーニング段階でラベルなしデータから情報を抽出します。第2に、選択したサンプルがモデルのパフォーマンスの向上に効果的であるように、トレーニングの目的と整合性のある一貫性ベースのサンプル選択メトリックを提案します。画像分類タスクについて広範囲な実験を行っています。 CIFAR-10、CIFAR-100、およびImageNetの実験結果は、既存の方法および代替のALとSSLの組み合わせと比較して、制限されたラベル付きデータを使用して、提案された方法の優れたパフォーマンスを示しています。さらに、重要な未調査の問題、「学習ベースのALの選択をいつから開始できるか」を研究します。 ALターゲット損失と経験的に相関し、学習ベースのALメソッドの適切な開始点を決定するために潜在的に役立つ測定を提案します。
Active learning (AL) combines data labeling and model training to minimize the labeling cost by prioritizing the selection of high value data that can best improve model performance. In pool-based active learning, accessible unlabeled data are not used for model training in most conventional methods. Here, we propose to unify unlabeled sample selection and model training towards minimizing labeling cost, and make two contributions towards that end. First, we exploit both labeled and unlabeled data using semi-supervised learning (SSL) to distill information from unlabeled data during the training stage. Second, we propose a consistency-based sample selection metric that is coherent with the training objective such that the selected samples are effective at improving model performance. We conduct extensive experiments on image classification tasks. The experimental results on CIFAR-10, CIFAR-100 and ImageNet demonstrate the superior performance of our proposed method with limited labeled data, compared to the existing methods and the alternative AL and SSL combinations. Additionally, we study an important yet under-explored problem -- "When can we start learning-based AL selection?". We propose a measure that is empirically correlated with the AL target loss and is potentially useful for determining the proper starting point of learning-based AL methods.
updated: Sat Jul 18 2020 04:21:15 GMT+0000 (UTC)
published: Wed Oct 16 2019 03:31:53 GMT+0000 (UTC)
