半教師あり学習(SSL)は、教師あり学習の注釈のボトルネックに対処するための主要なアプローチの1つです。最近のSSLメソッドは、ラベルのないデータの大規模なリポジトリを効果的に活用して、ラベルの付いたデータの小さなセットに依存しながらパフォーマンスを向上させることができます。ほとんどのSSLメソッドで一般的な仮定の1つは、ラベル付きデータとラベルなしデータが同じデータ分布からのものであるということです。ただし、これは多くの実際のシナリオではほとんど当てはまらないため、適用性が制限されます。この作業では、代わりに、そのような仮定を行わない、挑戦的なオープンワールドSSL問題の解決を試みます。オープンワールドSSL問題の目的は、既知のクラスのサンプルを認識し、同時に、ラベルのないデータに存在する新しいクラスに属するサンプルを検出してクラスター化することです。この作品は、新しいクラスを発見するためにペアワイズ類似性損失を利用するOpenLDNを紹介します。 2レベルの最適化ルールを使用して、このペアワイズ類似性損失は、ラベル付きセットで利用可能な情報を利用して、既知のクラスからのサンプルを同時に認識しながら、新しいクラスサンプルを暗黙的にクラスター化します。 OpenLDNは、新しいクラスを発見した後、オープンワールドのSSL問題を標準のSSL問題に変換し、既存のSSLメソッドを使用してパフォーマンスをさらに向上させます。私たちの広範な実験は、OpenLDNが複数の一般的な分類ベンチマークで現在の最先端の方法を上回り、精度とトレーニング時間のトレードオフを向上させることを示しています。
Semi-supervised learning (SSL) is one of the dominant approaches to address the annotation bottleneck of supervised learning. Recent SSL methods can effectively leverage a large repository of unlabeled data to improve performance while relying on a small set of labeled data. One common assumption in most SSL methods is that the labeled and unlabeled data are from the same data distribution. However, this is hardly the case in many real-world scenarios, which limits their applicability. In this work, instead, we attempt to solve the challenging open-world SSL problem that does not make such an assumption. In the open-world SSL problem, the objective is to recognize samples of known classes, and simultaneously detect and cluster samples belonging to novel classes present in unlabeled data. This work introduces OpenLDN that utilizes a pairwise similarity loss to discover novel classes. Using a bi-level optimization rule this pairwise similarity loss exploits the information available in the labeled set to implicitly cluster novel class samples, while simultaneously recognizing samples from known classes. After discovering novel classes, OpenLDN transforms the open-world SSL problem into a standard SSL problem to achieve additional performance gains using existing SSL methods. Our extensive experiments demonstrate that OpenLDN outperforms the current state-of-the-art methods on multiple popular classification benchmarks while providing a better accuracy/training time trade-off.