arXiv reaDer
Preparing Lessons: Improve Knowledge Distillation with Better Supervision
 知識の蒸留(KD)は、パフォーマンスを効果的に改善できる別の大きなモデルの監督下でコンパクトモデルをトレーニングするために広く使用されています。これまでの方法は主に2つの側面に焦点を当てていました。1)教師の表現空間を模倣するように生徒を訓練します。 2)モデルを段階的にトレーニングするか、弁別器などの追加モジュールを追加します。教師からの知識は有用ですが、それでもグラウンドトゥルースと比較して正確ではありません。その上、過度に不確かな監督も結果に影響します。悪い監督を罰し、学生モデルを改善するために、知識調整(KA)と動的温度蒸留(DTD)の2つの新しいアプローチを紹介します。 CIFAR-100、CINIC-10、およびTiny ImageNetでの実験により、当社の方法が最先端の方法と比較して有望なパフォーマンスを得ることがわかります。他のKDベースの方法と組み合わせると、パフォーマンスがさらに向上します。
Knowledge distillation (KD) is widely used for training a compact model with the supervision of another large model, which could effectively improve the performance. Previous methods mainly focus on two aspects: 1) training the student to mimic representation space of the teacher; 2) training the model progressively or adding extra module like discriminator. Knowledge from teacher is useful, but it is still not exactly right compared with ground truth. Besides, overly uncertain supervision also influences the result. We introduce two novel approaches, Knowledge Adjustment (KA) and Dynamic Temperature Distillation (DTD), to penalize bad supervision and improve student model. Experiments on CIFAR-100, CINIC-10 and Tiny ImageNet show that our methods get encouraging performance compared with state-of-the-art methods. When combined with other KD-based methods, the performance will be further improved.
updated: Fri Jul 24 2020 14:16:45 GMT+0000 (UTC)
published: Mon Nov 18 2019 07:47:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト