arXiv reaDer
知識蒸留のための機能模倣を擁護する
In Defense of Feature Mimicking for Knowledge Distillation
知識蒸留(KD)は、大容量ネットワーク(「教師」)の助けを借りて効率的なネットワーク(「学生」)をトレーニングするための一般的な方法です。従来の方法では、教師のソフトロジットを追加の監督として使用して、生徒のネットワークをトレーニングします。この論文では、最後から2番目の層で生徒に教師の特徴を模倣させる方が有利であると主張します。生徒は教師の機能からより効果的な情報を直接学習できるだけでなく、ソフトマックス層なしでトレーニングされた教師にも機能の模倣を適用できます。実験により、従来のKDよりも高い精度を達成できることが示されています。特徴の模倣をさらに容易にするために、特徴ベクトルを大きさと方向に分解します。教師は生徒の特徴の大きさにもっと自由を与え、生徒に特徴の方向を模倣することにもっと注意を向けさせるべきだと私たちは主張します。この要件を満たすために、局所性鋭敏型ハッシュ(LSH)に基づく損失項を提案します。この新しい損失の助けを借りて、私たちの方法は確かに特徴の方向をより正確に模倣し、特徴の大きさの制約を緩和し、最先端の蒸留精度を達成します。
Knowledge distillation (KD) is a popular method to train efficient networks ("student") with the help of high-capacity networks ("teacher"). Traditional methods use the teacher's soft logit as extra supervision to train the student network. In this paper, we argue that it is more advantageous to make the student mimic the teacher's features in the penultimate layer. Not only the student can directly learn more effective information from the teacher feature, feature mimicking can also be applied for teachers trained without a softmax layer. Experiments show that it can achieve higher accuracy than traditional KD. To further facilitate feature mimicking, we decompose a feature vector into the magnitude and the direction. We argue that the teacher should give more freedom to the student feature's magnitude, and let the student pay more attention on mimicking the feature direction. To meet this requirement, we propose a loss term based on locality-sensitive hashing (LSH). With the help of this new loss, our method indeed mimics feature directions more accurately, relaxes constraints on feature magnitudes, and achieves state-of-the-art distillation accuracy.
updated: Tue Nov 03 2020 02:15:14 GMT+0000 (UTC)
published: Tue Nov 03 2020 02:15:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト