arXiv reaDer
現実的な半教師あり学習に向けて
Towards Realistic Semi-Supervised Learning
ディープラーニングは、多くのコンピュータービジョンアプリケーションで最先端を推進しています。ただし、これは大きな注釈付きデータリポジトリに依存しており、実際のデータの制約のない性質をキャプチャすることはまだ解決されていません。半教師あり学習(SSL)は、注釈付きのトレーニングデータを、ラベルなしのデータの大規模なコーパスで補完して、注釈のコストを削減します。標準のSSLアプローチでは、ラベルのないデータが注釈付きのデータと同じ分布からのものであると想定しています。最近、オープンワールドSSLと呼ばれるより現実的なSSL問題が導入されました。この問題では、注釈のないデータに未知のクラスのサンプルが含まれている可能性があります。この論文では、オープンワールド環境でSSLに取り組むための新しい疑似ラベルベースのアプローチを提案します。私たちの方法の中核では、サンプルの不確実性を利用し、クラス分布に関する事前知識を組み込んで、既知のクラスと未知のクラスの両方に属するラベルなしデータの信頼できるクラス分布対応の疑似ラベルを生成します。私たちの広範な実験は、いくつかのベンチマークデータセットでのアプローチの有効性を示しており、CIFAR-100(〜17%)、ImageNet-100(〜5%)、およびTinyImageNet(〜9%)。また、新規クラス発見タスクを解決する際のアプローチの柔軟性を強調し、不均衡なデータを処理する際の安定性を示し、新規クラスの数を推定する手法でアプローチを補完します。
Deep learning is pushing the state-of-the-art in many computer vision applications. However, it relies on large annotated data repositories, and capturing the unconstrained nature of the real-world data is yet to be solved. Semi-supervised learning (SSL) complements the annotated training data with a large corpus of unlabeled data to reduce annotation cost. The standard SSL approach assumes unlabeled data are from the same distribution as annotated data. Recently, a more realistic SSL problem, called open-world SSL, is introduced, where the unannotated data might contain samples from unknown classes. In this paper, we propose a novel pseudo-label based approach to tackle SSL in open-world setting. At the core of our method, we utilize sample uncertainty and incorporate prior knowledge about class distribution to generate reliable class-distribution-aware pseudo-labels for unlabeled data belonging to both known and unknown classes. Our extensive experimentation showcases the effectiveness of our approach on several benchmark datasets, where it substantially outperforms the existing state-of-the-art on seven diverse datasets including CIFAR-100 (~17%), ImageNet-100 (~5%), and Tiny ImageNet (~9%). We also highlight the flexibility of our approach in solving novel class discovery task, demonstrate its stability in dealing with imbalanced data, and complement our approach with a technique to estimate the number of novel classes
updated: Thu Jul 28 2022 04:25:40 GMT+0000 (UTC)
published: Tue Jul 05 2022 19:04:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト