arXiv reaDer
それらは完全に役に立たないわけではありません:クラス不一致の半教師あり学習のための転送可能なラベルなしデータのリサイクルに向けて
They are Not Completely Useless: Towards Recycling Transferable Unlabeled Data for Class-Mismatched Semi-Supervised Learning
クラスが一致しない半教師あり学習(SSL)は、限定されたラベル付きデータの対象クラスが、大量のラベルなしデータのクラスのサブセットにすぎないという問題に対処します。その結果、ラベルのないデータのみが所有するクラスは、分類器のトレーニングを誤解させ、さまざまなSSLメソッドの現実的な着陸を妨げる可能性があります。この問題を解決するために、既存の方法では通常、ラベルのないデータを分布内(ID)データと分布外(OOD)データに分割し、OODデータを直接破棄または弱めて、悪影響を回避します。言い換えれば、それらはOODデータを完全に役に立たないものとして扱い、したがってそれらに含まれる分類のための潜在的な貴重な情報は完全に無視されます。この欠陥を改善するために、本論文では、IDデータと「リサイクル可能な」OODデータを適切に利用してクラス不一致SSLを実行するための情報を充実させる「転送可能なOODデータリサイクル」(TOOR)方法を提案します。具体的には、TOORはまず、ラベルのないすべてのデータをIDデータまたはOODデータに関連付けます。その中で、IDデータはトレーニングに直接使用されます。次に、IDデータおよびラベル付きデータと密接な関係があるOODデータをリサイクル可能として扱い、敵対的ドメイン適応を使用して、IDデータおよびラベル付きデータのスペースにそれらを投影します。言い換えると、OODデータのリサイクル可能性は、その転送可能性によって評価され、リサイクル可能なOODデータは、既知の関心クラスの分布と互換性があるように転送されます。その結果、私たちのTOORメソッドは、既存のアプローチよりも多くの情報をラベルなしデータから抽出するため、一般的なベンチマークデータセットでの実験で実証されたパフォーマンスの向上を実現できます。
Semi-Supervised Learning (SSL) with mismatched classes deals with the problem that the classes-of-interests in the limited labeled data is only a subset of the classes in massive unlabeled data. As a result, the classes only possessed by the unlabeled data may mislead the classifier training and thus hindering the realistic landing of various SSL methods. To solve this problem, existing methods usually divide unlabeled data to in-distribution (ID) data and out-of-distribution (OOD) data, and directly discard or weaken the OOD data to avoid their adverse impact. In other words, they treat OOD data as completely useless and thus the potential valuable information for classification contained by them is totally ignored. To remedy this defect, this paper proposes a "Transferable OOD data Recycling" (TOOR) method which properly utilizes ID data as well as the "recyclable" OOD data to enrich the information for conducting class-mismatched SSL. Specifically, TOOR firstly attributes all unlabeled data to ID data or OOD data, among which the ID data are directly used for training. Then we treat the OOD data that have a close relationship with ID data and labeled data as recyclable, and employ adversarial domain adaptation to project them to the space of ID data and labeled data. In other words, the recyclability of an OOD datum is evaluated by its transferability, and the recyclable OOD data are transferred so that they are compatible with the distribution of known classes-of-interests. Consequently, our TOOR method extracts more information from unlabeled data than existing approaches, so it can achieve the improved performance which is demonstrated by the experiments on typical benchmark datasets.
updated: Wed Jan 06 2021 08:59:19 GMT+0000 (UTC)
published: Fri Nov 27 2020 02:29:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト