重い教師ネットワークから軽い学生ネットワークに知識を転送することを目的とした知識蒸留は、ニューラルネットワークを圧縮するための有望な手法として浮上しています。ただし、重い教師と軽い生徒の間には容量のギャップがあるため、両者の間には依然として大きなパフォーマンスのギャップがあります。この論文では、教師と生徒の間の知識のギャップまたは残余を、res-studentと呼ばれるはるかに軽量な生徒を訓練するためのガイダンスとして使用して、新鮮な光の中で知識の蒸留を見ていきます。学生とres-studentを組み合わせて新しい学生にし、res-studentが前の学生のエラーを修正します。このような残余誘導プロセスは、ユーザーが精度とコストのバランスをとるまで繰り返すことができます。推論時に、サンプル適応戦略を提案して、各サンプルに不要な学生を決定します。これにより、計算コストを節約できます。実験結果は、CIFAR-10、CIFAR-100、Tiny-ImageNet、およびImageNetデータセットでの教師の計算コストの18.04%、23.14%、53.59%、および56.86%で競争力のあるパフォーマンスを達成することを示しています。最後に、私たちの方法について徹底的な理論的および経験的分析を行います。
Knowledge distillation, aimed at transferring the knowledge from a heavy teacher network to a lightweight student network, has emerged as a promising technique for compressing neural networks. However, due to the capacity gap between the heavy teacher and the lightweight student, there still exists a significant performance gap between them. In this paper, we see knowledge distillation in a fresh light, using the knowledge gap, or the residual, between a teacher and a student as guidance to train a much more lightweight student, called a res-student. We combine the student and the res-student into a new student, where the res-student rectifies the errors of the former student. Such a residual-guided process can be repeated until the user strikes the balance between accuracy and cost. At inference time, we propose a sample-adaptive strategy to decide which res-students are not necessary for each sample, which can save computational cost. Experimental results show that we achieve competitive performance with 18.04%, 23.14%, 53.59%, and 56.86% of the teachers' computational costs on the CIFAR-10, CIFAR-100, Tiny-ImageNet, and ImageNet datasets. Finally, we do thorough theoretical and empirical analysis for our method.