以前の知識蒸留法は、モデル圧縮タスクで印象的なパフォーマンスを示しましたが、伝達された知識が学生ネットワークのパフォーマンスの向上にどのように役立つかを説明するのは困難です.この作業では、高い解釈可能性と競争力を兼ね備えた知識蒸留手法の提案に焦点を当てています。まず、主流の CNN モデルの構造を再検討し、CNN が分類を実行するためには、入力のクラス識別領域を識別する能力を持つことが重要であることを明らかにします。さらに、クラス活性化マップを転送することで、この容量を取得および強化できることを示します。私たちの調査結果に基づいて、クラス注意伝達ベースの知識蒸留 (CAT-KD) を提案します。以前の KD メソッドとは異なり、CAT-KD の解釈可能性を改善するだけでなく、CNN のより良い理解にも貢献する、私たちのメソッドによって転送された知識のいくつかのプロパティを調査して提示します。高い解釈性を持ちながら、CAT-KD は複数のベンチマークで最先端のパフォーマンスを実現します。コードは https://github.com/GzyAftermath/CAT-KD で入手できます。
Previous knowledge distillation methods have shown their impressive performance on model compression tasks, however, it is hard to explain how the knowledge they transferred helps to improve the performance of the student network. In this work, we focus on proposing a knowledge distillation method that has both high interpretability and competitive performance. We first revisit the structure of mainstream CNN models and reveal that possessing the capacity of identifying class discriminative regions of input is critical for CNN to perform classification. Furthermore, we demonstrate that this capacity can be obtained and enhanced by transferring class activation maps. Based on our findings, we propose class attention transfer based knowledge distillation (CAT-KD). Different from previous KD methods, we explore and present several properties of the knowledge transferred by our method, which not only improve the interpretability of CAT-KD but also contribute to a better understanding of CNN. While having high interpretability, CAT-KD achieves state-of-the-art performance on multiple benchmarks. Code is available at: https://github.com/GzyAftermath/CAT-KD.