Data Efficient Stagewise Knowledge Distillation
ディープラーニング(DL)の成功にもかかわらず、大規模な計算能力を必要とする最新のDLモデルの展開は、リソースに制約のあるシステムに重大な問題を引き起こします。これには、パフォーマンスを維持しながら計算を削減するコンパクトなネットワークを構築する必要があります。教師から生徒に知識を転送する従来の知識蒸留(KD)メソッドは、(a)単一ステージを使用し、(b)知識を生徒に蒸留する間にデータセット全体を必要とします。この作業では、教師から得た知識を活用するための段階的な段階的トレーニングによって従来のKDメソッドに基づいて構築するStagewise Knowledge Distillation(SKD)と呼ばれる新しい方法を提案し、データ効率の高い蒸留プロセスを実現します。分類およびセマンティックセグメンテーションタスクに関するメソッドを評価します。テストされたタスク全体で、メトリクスに妥協することなく、蒸留で使用されたデータの一部でもパフォーマンスの大幅な向上を示しています。また、この手法を既存のKD手法と比較し、SKDがそれらの手法よりも優れていることを示します。さらに、私たちの方法は、量子化やプルーニングなどの他のモデル圧縮方法を補完する一般化されたモデル圧縮技術と見なすことができます。
Despite the success of Deep Learning (DL), the deployment of modern DL models requiring large computational power poses a significant problem for resource-constrained systems. This necessitates building compact networks that reduce computations while preserving performance. Traditional Knowledge Distillation (KD) methods that transfer knowledge from teacher to student (a) use a single-stage and (b) require the whole data set while distilling the knowledge to the student. In this work, we propose a new method called Stagewise Knowledge Distillation (SKD) which builds on traditional KD methods by progressive stagewise training to leverage the knowledge gained from the teacher, resulting in data-efficient distillation process. We evaluate our method on classification and semantic segmentation tasks. We show, across the tested tasks, significant performance gains even with a fraction of the data used in distillation, without compromising on the metric. We also compare our method with existing KD techniques and show that SKD outperforms them. Moreover, our method can be viewed as a generalized model compression technique that complements other model compression methods such as quantization or pruning.
updated: Tue Jun 23 2020 09:02:52 GMT+0000 (UTC)
published: Fri Nov 15 2019 18:06:26 GMT+0000 (UTC)
