arXiv reaDer
PURSUhInT:知識蒸留のためのレイヤークラスタリングに基づく有益なヒントポイントを求めて
PURSUhInT: In Search of Informative Hint Points Based on Layer Clustering for Knowledge Distillation
深部神経ネットワークを圧縮するための新しい知識蒸留方法論を提案します。知識蒸留の最も効率的な方法の1つは、ヒント蒸留です。この場合、生徒モデルには、教師モデルのいくつかの異なるレイヤーからの情報(ヒント)が注入されます。ヒントポイントの選択は圧縮性能を大幅に変える可能性がありますが、従来の蒸留アプローチではこの事実を見落としています。したがって、教師モデルのレイヤーがいくつかのメトリックに関してクラスター化され、クラスターの中心がヒントポイントとして使用される、クラスタリングベースのヒント選択方法を提案します。私たちの方法は、選択した教師ネットワークに適用されると、すべての学生ネットワークに適用できます。提案されたアプローチは、さまざまな教師と生徒のペアと多数のヒント蒸留方法を使用して、CIFAR-100およびImageNetデータセットで検証されています。私たちの結果は、私たちのアルゴリズムによって選択されたヒントポイントが、同じ学生モデルとデータセットでの最先端の知識蒸留アルゴリズムに関して優れた圧縮パフォーマンスをもたらすことを示しています。
We propose a novel knowledge distillation methodology for compressing deep neural networks. One of the most efficient methods for knowledge distillation is hint distillation, where the student model is injected with information (hints) from several different layers of the teacher model. Although the selection of hint points can drastically alter the compression performance, conventional distillation approaches overlook this fact. Therefore, we propose a clustering based hint selection methodology, where the layers of teacher model are clustered with respect to several metrics and the cluster centers are used as the hint points. Our method is applicable for any student network, once it is applied on a chosen teacher network. The proposed approach is validated in CIFAR-100 and ImageNet datasets, using various teacher-student pairs and numerous hint distillation methods. Our results show that hint points selected by our algorithm results in superior compression performance with respect to state-of-the-art knowledge distillation algorithms on the same student models and datasets.
updated: Fri Feb 18 2022 20:50:30 GMT+0000 (UTC)
published: Fri Feb 26 2021 21:18:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト