Revisiting Knowledge Distillation via Label Smoothing Regularization
知識蒸留(KD)は、面倒な教師モデルの知識を軽量の学生モデルに蒸留することを目的としています。その成功は一般に、教師モデルによって提供されるカテゴリ間の類似性に関する特権情報に起因し、この意味で、実際には弱い学生を教えるために強力な教師モデルのみが展開されます。この作業では、実験的観察に従ってこの共通の信念に挑戦します。1)教師が生徒を改善できるという認識を超えて、生徒はKD手順を逆にすることで教師を大幅に強化することもできます。 2)生徒よりもはるかに精度が低く、訓練が不十分な教師でも、生徒を大幅に改善することができます。これらの観察結果を説明するために、KDとラベル平滑化正則化の関係の理論的分析を提供します。 1)KDは学習されたラベル平滑化正則化の一種であり、2)ラベル平滑化正則化はKDの仮想教師モデルを提供することを証明します。これらの結果から、KDの成功は、教師からのカテゴリ間の類似性情報だけでなく、同等またはそれ以上に重要なソフトターゲットの正則化によるものであると主張します。これらの分析に基づいて、学生モデルがそれ自体または手動で設計された正則化分布から学習する、新しい教師なしの知識蒸留(Tf-KD)フレームワークをさらに提案します。 Tf-KDは、優れた教師の通常のKDと同等のパフォーマンスを実現します。これは、より強力な教師モデルが利用できない場合によく適用されます。一方、Tf-KDは汎用であり、ディープニューラルネットワークのトレーニングに直接展開できます。追加の計算コストなしで、Tf-KDは確立されたベースラインモデルよりもImageNetで最大0.65%の改善を達成します。これは、ラベル平滑化の正則化よりも優れています。
Knowledge Distillation (KD) aims to distill the knowledge of a cumbersome teacher model into a lightweight student model. Its success is generally attributed to the privileged information on similarities among categories provided by the teacher model, and in this sense, only strong teacher models are deployed to teach weaker students in practice. In this work, we challenge this common belief by following experimental observations: 1) beyond the acknowledgment that the teacher can improve the student, the student can also enhance the teacher significantly by reversing the KD procedure; 2) a poorly-trained teacher with much lower accuracy than the student can still improve the latter significantly. To explain these observations, we provide a theoretical analysis of the relationships between KD and label smoothing regularization. We prove that 1) KD is a type of learned label smoothing regularization and 2) label smoothing regularization provides a virtual teacher model for KD. From these results, we argue that the success of KD is not fully due to the similarity information between categories from teachers, but also to the regularization of soft targets, which is equally or even more important. Based on these analyses, we further propose a novel Teacher-free Knowledge Distillation (Tf-KD) framework, where a student model learns from itself or manuallydesigned regularization distribution. The Tf-KD achieves comparable performance with normal KD from a superior teacher, which is well applied when a stronger teacher model is unavailable. Meanwhile, Tf-KD is generic and can be directly deployed for training deep neural networks. Without any extra computation cost, Tf-KD achieves up to 0.65% improvement on ImageNet over well-established baseline models, which is superior to label smoothing regularization.
updated: Thu Mar 04 2021 08:02:53 GMT+0000 (UTC)
published: Wed Sep 25 2019 19:33:43 GMT+0000 (UTC)
