arXiv reaDer
中間分類器ヘッドを介した知識の抽出
Distilling Knowledge via Intermediate Classifier Heads
知識の蒸留の核心は、転移学習アプローチとして、事前に訓練されたより大きな教師モデルのガイドを使用して、リソースが限られた学生モデルを効果的に訓練することです。ただし、教師と生徒のモデルの複雑さの間に大きな違いがある場合(つまり、容量のギャップ)、知識の蒸留は、教師から生徒に知識を伝達する力を失い、弱い生徒を訓練します。容量ギャップの影響を緩和するために、中間ヘッドを介した知識蒸留を導入します。教師の中間層(さまざまな深さ)を分類子ヘッドで拡張することにより、事前にトレーニングされた異種の教師のコホートを安価に取得できます。事前に訓練された教師のバックボーンを凍結しながら、中間分類子の頭をすべて一緒に効率的に学習することができます。教師のコホート(元の教師を含む)は、同時に生徒に共同指導します。さまざまな教師と生徒のペアとデータセットに関する私たちの実験は、提案されたアプローチが標準的な知識蒸留アプローチとその拡張よりも優れていることを示しています。
The crux of knowledge distillation -- as a transfer-learning approach -- is to effectively train a resource-limited student model with the guide of a pre-trained larger teacher model. However, when there is a large difference between the model complexities of teacher and student (i.e., capacity gap), knowledge distillation loses its strength in transferring knowledge from the teacher to the student, thus training a weaker student. To mitigate the impact of the capacity gap, we introduce knowledge distillation via intermediate heads. By extending the intermediate layers of the teacher (at various depths) with classifier heads, we cheaply acquire a cohort of heterogeneous pre-trained teachers. The intermediate classifier heads can all together be efficiently learned while freezing the backbone of the pre-trained teacher. The cohort of teachers (including the original teacher) co-teach the student simultaneously. Our experiments on various teacher-student pairs and datasets have demonstrated that the proposed approach outperforms the canonical knowledge distillation approach and its extensions.
updated: Sun Feb 28 2021 12:52:52 GMT+0000 (UTC)
published: Sun Feb 28 2021 12:52:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト