知識の蒸留は、教師のネットワークから生徒のネットワークに有用な情報を転送することを目的としており、目前のタスクに対する生徒のパフォーマンスを向上させることを主な目的としています。何年にもわたって、知識蒸留の新しい技術とユースケースの大洪水がありました。それでも、さまざまな改善にもかかわらず、プロセスのコミュニティの基本的な理解には明白なギャップがあるようです。具体的には、知識蒸留で蒸留される知識とは何ですか?言い換えれば、生徒はどのようにして教師に似たものになるのでしょうか。同じ方法でオブジェクトのローカライズを開始しますか?同じ敵のサンプルにだまされますか?そのデータ不変性のプロパティは類似していますか?私たちの仕事は、これらの質問などに答えようとする包括的な研究を提示します。ケーススタディとして画像分類と3つの最先端の知識蒸留技術を使用した私たちの結果は、知識蒸留法が実際にタスクのパフォーマンスを向上させる以外に他の種類の特性を間接的に蒸留できることを示しています。これらの質問を調査することにより、知識の蒸留中に何が起こるかをより明確に把握できるようになることを願っています。
Knowledge distillation aims to transfer useful information from a teacher network to a student network, with the primary goal of improving the student's performance for the task at hand. Over the years, there has a been a deluge of novel techniques and use cases of knowledge distillation. Yet, despite the various improvements, there seems to be a glaring gap in the community's fundamental understanding of the process. Specifically, what is the knowledge that gets distilled in knowledge distillation? In other words, in what ways does the student become similar to the teacher? Does it start to localize objects in the same way? Does it get fooled by the same adversarial samples? Does its data invariance properties become similar? Our work presents a comprehensive study to try to answer these questions and more. Our results, using image classification as a case study and three state-of-the-art knowledge distillation techniques, show that knowledge distillation methods can indeed indirectly distill other kinds of properties beyond improving task performance. By exploring these questions, we hope for our work to provide a clearer picture of what happens during knowledge distillation.