アクティブラーニング(AL)手法は、特定のタスクのモデルをトレーニングするために必要なトレーニングデータを最小限に抑えることを目的としています。プールベースのAL手法は、最初にラベル付けされた小さなプールから開始し、ラベル付けのために最も有益なサンプルのバッチを繰り返し選択します。通常、初期プールはランダムにサンプリングされ、AL反復をシードするためにラベルが付けられます。最近の研究では、ALのさまざまなクエリ関数の堅牢性の評価に焦点が当てられていますが、ディープアクティブラーニング用の初期ラベル付きプールの設計にはほとんどまたはまったく注意が払われていません。自己監視/教師なしの方法で表現を学習する最近の成功を踏まえて、インテリジェントにサンプリングされた初期ラベル付きプールが深いALパフォーマンスを改善できるかどうかを調査します。自己監視ありおよび教師なし戦略の使用を含む、インテリジェントにサンプリングされた初期ラベル付きプールがディープALメソッドに与える影響を調査します。セットアップ、仮説、方法論、および実装の詳細は、実験が行われる前にピアレビューによって評価されました。実験結果は、インテリジェントにサンプリングされた初期プールが長期的にはランダムな初期プールよりもALに適していることを決定的に証明できませんでしたが、変分オートエンコーダベースの初期プールサンプリング戦略は、より深い調査に値する興味深い傾向を示しました。
Active Learning (AL) techniques aim to minimize the training data required to train a model for a given task. Pool-based AL techniques start with a small initial labeled pool and then iteratively pick batches of the most informative samples for labeling. Generally, the initial pool is sampled randomly and labeled to seed the AL iterations. While recent studies have focused on evaluating the robustness of various query functions in AL, little to no attention has been given to the design of the initial labeled pool for deep active learning. Given the recent successes of learning representations in self-supervised/unsupervised ways, we study if an intelligently sampled initial labeled pool can improve deep AL performance. We investigate the effect of intelligently sampled initial labeled pools, including the use of self-supervised and unsupervised strategies, on deep AL methods. The setup, hypotheses, methodology, and implementation details were evaluated by peer review before experiments were conducted. Experimental results could not conclusively prove that intelligently sampled initial pools are better for AL than random initial pools in the long run, although a Variational Autoencoder-based initial pool sampling strategy showed interesting trends that merit deeper investigation.