arXiv reaDer
Bias-Aware Heapified Policy for Active Learning
 高品質でクリーンなデータは高価であり、収集が難しいため、学習ベースのアルゴリズムのデータ効率はますます重要になっています。最小限のサンプル数で高いモデルパフォーマンスを実現するために、アクティブラーニングは、元のデータセットからデータの最も重要なサブセットをクエリする手法です。アクティブな学習領域では、主流の研究の1つは、学習ベースのシステムに役立つヒューリスティックな不確実性ベースの方法です。最近、重要なデータの照会にポリシー強化学習(PRL)を適用することを提案するいくつかの研究があります。 PRLメソッドは、人間の事前よりも信頼できるデータ機能に依存しているため、ヒューリスティックな不確実性ベースの方法よりも一般的と思われます。ただし、2つの問題があります。アクティブ学習にPRLを適用する場合の、ポリシー学習の非効率性と自信過剰の例です。より正確には、大きなアクション空間内でサンプリングを行うと、ポリシー学習のサンプルの非効率性が発生します。一方、クラスの不均衡は、自信過剰につながります。この論文では、Heapified Active Learning(HAL)と呼ばれるバイアス認識ポリシーネットワークを提案します。これは、過信を防ぎ、グローバル情報を無視せずにヒープ構造によってポリシー学習のサンプル効率を向上させます(ラベルなしセット全体の概要)。この実験では、HALはMNISTデータセットおよび複製されたMNISTで他のベースラインメソッドよりも優れています。最後に、MNIST-Mに直接適用することにより、MNISTデータセットで学習したHALポリシーの一般化を調査します。エージェントは、制約付きラベル付きセットの下で直接学習されたポリシーを一般化し、それを上回ることができることを示します。
The data efficiency of learning-based algorithms is more and more important since high-quality and clean data is expensive as well as hard to collect. In order to achieve high model performance with the least number of samples, active learning is a technique that queries the most important subset of data from the original dataset. In active learning domain, one of the mainstream research is the heuristic uncertainty-based method which is useful for the learning-based system. Recently, a few works propose to apply policy reinforcement learning (PRL) for querying important data. It seems more general than heuristic uncertainty-based method owing that PRL method depends on data feature which is reliable than human prior. However, there have two problems - sample inefficiency of policy learning and overconfidence, when applying PRL on active learning. To be more precise, sample inefficiency of policy learning occurs when sampling within a large action space, in the meanwhile, class imbalance can lead to the overconfidence. In this paper, we propose a bias-aware policy network called Heapified Active Learning (HAL), which prevents overconfidence, and improves sample efficiency of policy learning by heapified structure without ignoring global inforamtion(overview of the whole unlabeled set). In our experiment, HAL outperforms other baseline methods on MNIST dataset and duplicated MNIST. Last but not least, we investigate the generalization of the HAL policy learned on MNIST dataset by directly applying it on MNIST-M. We show that the agent can generalize and outperform directly-learned policy under constrained labeled sets.
updated: Mon Nov 18 2019 12:08:09 GMT+0000 (UTC)
published: Mon Nov 18 2019 12:08:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト