arXiv reaDer
知識の蒸留がオープンセットの半教師あり学習と出会う
Knowledge Distillation Meets Open-Set Semi-Supervised Learning
既存の知識蒸留方法は、主に教師の予測と中間活性化の蒸留に焦点を合わせています。ただし、構造化された表現は、おそらくディープモデルの最も重要な要素の1つであり、ほとんど見過ごされています。この作業では、事前に訓練された教師から対象の学生に意味的に表現知識を抽出するための新しい()方法を提案します。重要なアイデアは、教師と生徒の両方の表現を評価し、すべての機能の次元にわたって高次の構造化された情報を使用して意味知識を抽出するための意味論評家として、教師の分類子を活用することです。これは、生徒の表現を教師の分類子に渡すことによって計算されるクロスネットワークロジットの概念を導入することによって実現されます。さらに、組み合わせの観点からセマンティックスペースの基礎として見られるクラスのセットを考慮して、広く利用可能な任意のラベルなしトレーニングデータの効果的な活用を可能にするために、見られないクラスにスケーリングします。問題レベルでは、これにより、知識の蒸留とオープンセットの半教師あり学習(SSL)との間に興味深い関係が確立されます。広範な実験により、粗いオブジェクトの分類と細かい顔認識のタスクの両方で、以前の最先端の知識蒸留方法よりも大幅に優れていること、およびあまり研究されていないが実際には重要なバイナリネットワーク蒸留が優れていることが示されています。私たちが紹介するより現実的なオープンセットSSL設定の下で、知識蒸留は既存のOut-Of-Distribution(OOD)サンプル検出よりも一般的に効果的であり、提案されたものは以前の蒸留とSSLの競合他社よりも優れていることを明らかにします。ソースコードはhttps://github.com/jingyang2017/SRD\_osslで入手できます。
Existing knowledge distillation methods mostly focus on distillation of teacher's prediction and intermediate activation. However, the structured representation, which arguably is one of the most critical ingredients of deep models, is largely overlooked. In this work, we propose a novel ( ) method dedicated for distilling representational knowledge semantically from a pretrained teacher to a target student. The key idea is that we leverage the teacher's classifier as a semantic critic for evaluating the representations of both teacher and student and distilling the semantic knowledge with high-order structured information over all feature dimensions. This is accomplished by introducing a notion of cross-network logit computed through passing student's representation into teacher's classifier. Further, considering the set of seen classes as a basis for the semantic space in a combinatorial perspective, we scale to unseen classes for enabling effective exploitation of largely available, arbitrary unlabeled training data. At the problem level, this establishes an interesting connection between knowledge distillation with open-set semi-supervised learning (SSL). Extensive experiments show that our outperforms significantly previous state-of-the-art knowledge distillation methods on both coarse object classification and fine face recognition tasks, as well as less studied yet practically crucial binary network distillation. Under more realistic open-set SSL settings we introduce, we reveal that knowledge distillation is generally more effective than existing Out-Of-Distribution (OOD) sample detection, and our proposed is superior over both previous distillation and SSL competitors. The source code is available at https://github.com/jingyang2017/SRD\_ossl.
updated: Fri May 13 2022 15:15:27 GMT+0000 (UTC)
published: Fri May 13 2022 15:15:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト