知識の蒸留(KD)に関する最近の研究は、意思決定境界を事後知識として入念にモデリングすることでさらに改善されていますが、そのパフォーマンスは、ターゲットネットワークに強力な能力(表現能力)があるという仮説に依拠しています。この論文では、事前知識としてパラメータ分布のモデリングに主に焦点を当てた知識表現(KR)フレームワークを提案します。まず、教師ネットワークからの事前知識を表現する方法に答えるために、知識集約スキームを提案します。教師ネットワークからのパラメータ分布をより抽象的なレベルに集約することにより、このスキームは、より深い層での残留蓄積の現象を軽減することができます。第二に、最も重要な事前知識がより良い蒸留のための重要な問題であるため、ペナルティされた勾配で学習するように学生ネットワークを制約するためのスパース記録ペナルティを設計します。提案されたペナルティにより、学生ネットワークは知識の蒸留中に過剰な正規化を効果的に回避し、より速く収束できます。定量的実験は、ターゲットネットワークに期待される容量がない場合でも、提案されたフレームワークが最先端のパフォーマンスを達成することを示しています。さらに、フレームワークは、事後知識に基づいて他のKDメソッドと組み合わせるのに十分な柔軟性を備えています。
Despite the recent works on knowledge distillation (KD) have achieved a further improvement through elaborately modeling the decision boundary as the posterior knowledge, their performance is still dependent on the hypothesis that the target network has a powerful capacity (representation ability). In this paper, we propose a knowledge representing (KR) framework mainly focusing on modeling the parameters distribution as prior knowledge. Firstly, we suggest a knowledge aggregation scheme in order to answer how to represent the prior knowledge from teacher network. Through aggregating the parameters distribution from teacher network into more abstract level, the scheme is able to alleviate the phenomenon of residual accumulation in the deeper layers. Secondly, as the critical issue of what the most important prior knowledge is for better distilling, we design a sparse recoding penalty for constraining the student network to learn with the penalized gradients. With the proposed penalty, the student network can effectively avoid the over-regularization during knowledge distilling and converge faster. The quantitative experiments exhibit that the proposed framework achieves the state-ofthe-arts performance, even though the target network does not have the expected capacity. Moreover, the framework is flexible enough for combining with other KD methods based on the posterior knowledge.