arXiv reaDer
知識の蒸留における「優れた」データ増強の条件 -- 統計的視点
What Makes a "Good" Data Augmentation in Knowledge Distillation -- A Statistical Perspective
知識蒸留 (KD) は、教師を使用して生徒を指導する一般的なニューラル ネットワーク トレーニング アプローチです。既存の研究では、主にネットワークの出力側から KD を研究していますが (たとえば、より良い KD 損失関数を設計しようとしているなど)、入力側から理解しようとしたものはほとんどありません。特に、データ拡張 (DA) との相互作用はよく理解されていません。このホワイト ペーパーでは、次のことを問いかけます。 KD における「優れた」DA とは?統計的観点からの私たちの調査は、優れた DA スキームが教師の平均確率の分散を減らすべきであることを示唆しています。理論的な理解に加えて、CutMix を強化するために、新しいエントロピーベースのデータ混合 DA スキームも紹介します。広範な実証研究は、私たちの主張を裏付けており、知識の蒸留においてより優れた DA スキームを使用するだけで、パフォーマンスが大幅に向上する方法を示しています。
Knowledge distillation (KD) is a general neural network training approach that uses a teacher to guide a student. Existing works mainly study KD from the network output side (e.g., trying to design a better KD loss function), while few have attempted to understand it from the input side. Especially, its interplay with data augmentation (DA) has not been well understood. In this paper, we ask: Why do some DA schemes (e.g., CutMix) inherently perform much better than others in KD? What makes a "good" DA in KD? Our investigation from a statistical perspective suggests that a good DA scheme should reduce the variance of the teacher's mean probability, which will eventually lead to a lower generalization gap for the student. Besides the theoretical understanding, we also introduce a new entropy-based data-mixing DA scheme to enhance CutMix. Extensive empirical studies support our claims and demonstrate how we can harvest considerable performance gains simply by using a better DA scheme in knowledge distillation.
updated: Tue Oct 18 2022 23:20:41 GMT+0000 (UTC)
published: Sat Dec 05 2020 00:32:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト