深い畳み込みニューラルネットワーク(CNN)で構成されるアンサンブルモデルは、モデルの一般化において大幅な改善を示していますが、計算とメモリの要件が大きくなります。この論文では、分類性能とモデルの一般化が改善されたコンパクトなCNNモデルを学習するためのフレームワークを示します。このために、グランドトゥルースラベルとアンサンブル学習方式の大容量教師ネットワークからの情報を使用してトレーニングされる並列分岐を持つコンパクトな学生モデルのCNNアーキテクチャを提案します。私たちのフレームワークは、2つの主な利点を提供します。i)さまざまな教師からの知識を生徒ネットワークに抽出することで、生徒ネットワークのさまざまなブランチでの特徴学習の異質性を促進し、ネットワークが対象の問題に対するさまざまなソリューションを学習できるようにします。 ii)アンサンブルを介して学生ネットワークのブランチを結合すると、コラボレーションが促進され、ネットワーク出力の分散を減らすことによって最終予測の品質が向上します。十分に確立されたCIFAR-10およびCIFAR-100データセットでの実験は、Ensemble Knowledge Distillation(EKD)が、特にトレーニングデータが限られている状況で、分類の精度とモデルの一般化を改善することを示しています。実験はまた、EKDベースのコンパクトネットワークが、最先端の知識蒸留ベースの方法と比較して、テストデータセットの平均精度の面で優れていることも示しています。
Ensemble models comprising of deep Convolutional Neural Networks (CNN) have shown significant improvements in model generalization but at the cost of large computation and memory requirements. In this paper, we present a framework for learning compact CNN models with improved classification performance and model generalization. For this, we propose a CNN architecture of a compact student model with parallel branches which are trained using ground truth labels and information from high capacity teacher networks in an ensemble learning fashion. Our framework provides two main benefits: i) Distilling knowledge from different teachers into the student network promotes heterogeneity in feature learning at different branches of the student network and enables the network to learn diverse solutions to the target problem. ii) Coupling the branches of the student network through ensembling encourages collaboration and improves the quality of the final predictions by reducing variance in the network outputs. Experiments on the well established CIFAR-10 and CIFAR-100 datasets show that our Ensemble Knowledge Distillation (EKD) improves classification accuracy and model generalization especially in situations with limited training data. Experiments also show that our EKD based compact networks outperform in terms of mean accuracy on the test datasets compared to state-of-the-art knowledge distillation based methods.