ラベルを取得するための高コストは、教師あり機械学習アルゴリズムを展開する際の主な課題の1つです。能動学習は、ラベル付けされていないインスタンスの大きなプールからラベル付けされたトレーニング例を選択することにより、学習プロセスを制御し、データのラベル付けの困難に対処する有望なアプローチです。この論文では、有益かつ代表的なラベル付きデータポイントの小さなセットを選択することにより、アクティブラーニングへの新しいデータ駆動型アプローチを提案します。この目的のために、Variable Autoencoder(VAE)をトレーニングして得られた低次元の潜在空間で多様なコアセットを選択するための効率的な幾何学的手法を提示します。私たちの実験は、2つの関連する手法よりも精度が向上していることを実証し、さらに重要なことは、高次元データ設定で新しいアクティブな学習方法を開発するための生成モデリングの表現力を示しています。
The high cost of acquiring labels is one of the main challenges in deploying supervised machine learning algorithms. Active learning is a promising approach to control the learning process and address the difficulties of data labeling by selecting labeled training examples from a large pool of unlabeled instances. In this paper, we propose a new data-driven approach to active learning by choosing a small set of labeled data points that are both informative and representative. To this end, we present an efficient geometric technique to select a diverse core-set in a low-dimensional latent space obtained by training a Variational Autoencoder (VAE). Our experiments demonstrate an improvement in accuracy over two related techniques and, more importantly, signify the representation power of generative modeling for developing new active learning methods in high-dimensional data settings.