マルチクラス・ニューラルネットワークの一般化と学習速度は、ハードターゲットとラベルの均一分布の加重平均であるソフトターゲットを使用することで大幅に改善されることがよくある。このようにしてラベルを平滑化することは、ネットワークが過信するのを防ぎ、ラベル平滑化は画像分類、言語翻訳、音声認識を含む多くの最先端モデルで使用されている。しかし、広く使われているにもかかわらず、ラベルスムージングはまだ十分に理解されていない。ここでは、ラベルスムージングが一般化を改善するだけでなく、モデルのキャリブレーションを改善し、ビームサーチを大幅に改善できることを経験的に示している。しかし、教師ネットワークがラベルスムージングを用いて学習された場合、学生ネットワークへの知識の蒸留はあまり効果的ではないことも観察された。これらの観察結果を説明するために、ラベルスムージングがネットワークの最終層で学習される表現をどのように変化させるかを可視化した。ラベル・スムージングが、同じクラスの学習例の表現を緊密なクラスタにグループ化することを促進することを示す。この結果、異なるクラスのインスタンス間の類似性に関するロジットの情報が失われ、これは蒸留には必要であるが、モデルの予測の一般化や較正には影響しない。
The generalization and learning speed of a multi-class neural network can often be significantly improved by using soft targets that are a weighted average of the hard targets and the uniform distribution over labels. Smoothing the labels in this way prevents the network from becoming over-confident and label smoothing has been used in many state-of-the-art models, including image classification, language translation and speech recognition. Despite its widespread use, label smoothing is still poorly understood. Here we show empirically that in addition to improving generalization, label smoothing improves model calibration which can significantly improve beam-search. However, we also observe that if a teacher network is trained with label smoothing, knowledge distillation into a student network is much less effective. To explain these observations, we visualize how label smoothing changes the representations learned by the penultimate layer of the network. We show that label smoothing encourages the representations of training examples from the same class to group in tight clusters. This results in loss of information in the logits about resemblances between instances of different classes, which is necessary for distillation, but does not hurt generalization or calibration of the model's predictions.