知識の蒸留は、面倒な教師モデルから軽量の学生モデルに知識を移すための効果的な方法です。オンライン知識蒸留では、複数の学生モデルのアンサンブルされた予測結果をソフトターゲットとして使用して、各学生モデルをトレーニングします。ただし、均質化の問題により、モデルのパフォーマンスをさらに向上させることが困難になります。この作業では、複数の学生モデル間の多様性を高めるための新しい蒸留方法を提案します。複数の学生モデルの最後のブロックに含まれる豊富なセマンティック情報を統合することにより、ネットワークの注意メカニズムのパフォーマンスを向上させるFeature Fusion Module(FFM)を紹介します。さらに、Classifier Diversification(CD)損失関数を使用して、学生モデル間の差異を強化し、より良いアンサンブル結果を提供します。広範な実験により、私たちの方法が学生モデル間の多様性を大幅に高め、より良い蒸留性能をもたらすことが証明されました。 CIFAR-10 / 100とCINIC-10の3つの画像分類データセットでメソッドを評価します。結果は、私たちの方法がこれらのデータセットで最先端のパフォーマンスを達成していることを示しています。
Knowledge distillation is an effective method to transfer the knowledge from the cumbersome teacher model to the lightweight student model. Online knowledge distillation uses the ensembled prediction results of multiple student models as soft targets to train each student model. However, the homogenization problem will lead to difficulty in further improving model performance. In this work, we propose a new distillation method to enhance the diversity among multiple student models. We introduce Feature Fusion Module (FFM), which improves the performance of the attention mechanism in the network by integrating rich semantic information contained in the last block of multiple student models. Furthermore, we use the Classifier Diversification(CD) loss function to strengthen the differences between the student models and deliver a better ensemble result. Extensive experiments proved that our method significantly enhances the diversity among student models and brings better distillation performance. We evaluate our method on three image classification datasets: CIFAR-10/100 and CINIC-10. The results show that our method achieves state-of-the-art performance on these datasets.