能動学習は、通常、ラベルの付いていないいくつかのサンプルのみでモデルをトレーニングすることに焦点を当てていますが、ラベルの付いていないサンプルは取得にのみ使用されます。この作業では、アクティブな学習サイクルにわたるモデルトレーニング中にラベル付きデータとラベルなしデータの両方を使用することにより、この設定から出発します。これは、アクティブな学習パイプラインの開始時に教師なし機能学習を使用し、アクティブな学習サイクルごとに、利用可能なすべてのデータに対して半教師付き学習を使用することにより行います。前者は能動学習で以前に調査されたことはありませんが、深層学習の文脈で後者の研究は少なく、最近の知見はその利点に関して決定的ではありません。私たちのアイデアは、アンサンブルメソッドがより多くのモデルを使用するように、より多くのデータを使用することにより、獲得戦略に直交しています。多数の一般的な取得戦略とデータセットを体系的に評価することにより、モデルのトレーニング中にラベルのないデータを使用すると、取得戦略の違いと比較して、画像分類の精度が驚くほど向上することがわかります。したがって、クラスごとに1つのラベルでさえ、より小さなラベル予算を検討します。
Active learning typically focuses on training a model on few labeled examples alone, while unlabeled ones are only used for acquisition. In this work we depart from this setting by using both labeled and unlabeled data during model training across active learning cycles. We do so by using unsupervised feature learning at the beginning of the active learning pipeline and semi-supervised learning at every active learning cycle, on all available data. The former has not been investigated before in active learning, while the study of latter in the context of deep learning is scarce and recent findings are not conclusive with respect to its benefit. Our idea is orthogonal to acquisition strategies by using more data, much like ensemble methods use more models. By systematically evaluating on a number of popular acquisition strategies and datasets, we find that the use of unlabeled data during model training brings a surprising accuracy improvement in image classification, compared to the differences between acquisition strategies. We thus explore smaller label budgets, even one label per class.