arXiv reaDer
アクティブデータディスカバリー:劣モジュラ情報測定を使用した未知のデータのマイニング
Active Data Discovery: Mining Unknown Data using Submodular Information Measures
アクティブラーニングは、ラベル付けの効率を達成することを目的として、ループ内の人間と一緒にラベル付けされていないセットのサブセットを反復的かつ適応的にサンプリングするための非常に一般的でありながら強力なフレームワークです。ほとんどの実際のデータセットは、クラスとスライスのいずれかで不均衡があり、それに応じて、データセットの一部はまれです。その結果、これらのまれなデータインスタンスをマイニングするためのアクティブラーニングアプローチの設計には多くの作業がありました。ほとんどのアプローチは、これらのまれなデータインスタンスを含むインスタンスのシードセットへのアクセスを前提としています。ただし、より極端な希少性の場合、これらの希少なデータインスタンス(クラスまたはスライスのいずれか)がシードラベルセットに存在しない可能性があると想定するのが合理的であり、アクティブラーニングパラダイムの重要な必要性は効率的に発見することですこれらのまれなデータインスタンス。この作業では、劣モジュラ条件付きゲインと劣モジュラ条件付き相互情報量関数を使用して、未知のデータスライスとクラスを効率的にマイニングできるアクティブなデータ検出フレームワークを提供します。画像分類やオブジェクト検出などの多くのシナリオで機能し、ラベルのないセットに存在するまれなクラスとまれなスライスの両方で機能する一般的なアルゴリズムフレームワークを提供します。これらのまれなクラスとスライスを積極的に発見するための既存の最先端のアクティブラーニングアプローチと比較して、私たちのアプローチでは大幅な精度とラベリング効率の向上を示しています。
Active Learning is a very common yet powerful framework for iteratively and adaptively sampling subsets of the unlabeled sets with a human in the loop with the goal of achieving labeling efficiency. Most real world datasets have imbalance either in classes and slices, and correspondingly, parts of the dataset are rare. As a result, there has been a lot of work in designing active learning approaches for mining these rare data instances. Most approaches assume access to a seed set of instances which contain these rare data instances. However, in the event of more extreme rareness, it is reasonable to assume that these rare data instances (either classes or slices) may not even be present in the seed labeled set, and a critical need for the active learning paradigm is to efficiently discover these rare data instances. In this work, we provide an active data discovery framework which can mine unknown data slices and classes efficiently using the submodular conditional gain and submodular conditional mutual information functions. We provide a general algorithmic framework which works in a number of scenarios including image classification and object detection and works with both rare classes and rare slices present in the unlabeled set. We show significant accuracy and labeling efficiency gains with our approach compared to existing state-of-the-art active learning approaches for actively discovering these rare classes and slices.
updated: Fri Jun 17 2022 05:52:18 GMT+0000 (UTC)
published: Fri Jun 17 2022 05:52:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト