arXiv reaDer
マルチレベルの知識の蒸留
Multi-level Knowledge Distillation
知識の蒸留は、モデルの圧縮と加速のための重要な手法になっています。従来の知識蒸留アプローチは、教師と生徒のネットワークの個々の表現間の相互関係のみを考慮する確率的出力間のKL発散を最小限に抑えることにより、教師から生徒のネットワークに知識を転送することを目的としています。最近、対照的な損失ベースの知識蒸留が提案され、表現空間で同じ画像を近くにマッピングし、異なる画像を遠くにマッピングすることによって、学生が教師のインスタンス識別知識を学習できるようにします。ただし、これらの方法はすべて、教師の知識がマルチレベル、たとえば、個人、関係、およびカテゴリレベルであることを無視しています。これらの異なるレベルの知識は、1種類の監督信号だけでは効果的に捉えることができません。ここでは、教師から学生のネットワークに豊富な表現知識を転送するためのマルチレベル知識蒸留(MLKD)を紹介します。 MLKDは、教師と生徒の3つの新しい類似点、つまり個人の類似性、関係の類似性、カテゴリの類似性を採用して、生徒のネットワークが教師ネットワークでサンプルごと、構造ごと、カテゴリごとの知識を学ぶように促しています。実験は、MLKDが、類似のアーキテクチャとクロスアーキテクチャの両方のタスクで他の最先端の方法よりも優れていることを示しています。さらに、MLKDが学生ネットワークで学習した表現の転送可能性を向上させることができることを示します。
Knowledge distillation has become an important technique for model compression and acceleration. The conventional knowledge distillation approaches aim to transfer knowledge from teacher to student networks by minimizing the KL-divergence between their probabilistic outputs, which only consider the mutual relationship between individual representations of teacher and student networks. Recently, the contrastive loss-based knowledge distillation is proposed to enable a student to learn the instance discriminative knowledge of a teacher by mapping the same image close and different images far away in the representation space. However, all of these methods ignore that the teacher's knowledge is multi-level, e.g., individual, relational and categorical level. These different levels of knowledge cannot be effectively captured by only one kind of supervisory signal. Here, we introduce Multi-level Knowledge Distillation (MLKD) to transfer richer representational knowledge from teacher to student networks. MLKD employs three novel teacher-student similarities: individual similarity, relational similarity, and categorical similarity, to encourage the student network to learn sample-wise, structure-wise and category-wise knowledge in the teacher network. Experiments demonstrate that MLKD outperforms other state-of-the-art methods on both similar-architecture and cross-architecture tasks. We further show that MLKD can improve the transferability of learned representations in the student network.
updated: Tue Dec 01 2020 15:27:15 GMT+0000 (UTC)
published: Tue Dec 01 2020 15:27:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト