KDExplainer: A Task-oriented Attention Model for Explaining Knowledge Distillation
知識蒸留(KD)は、コンパクトなディープニューラルネットワーク(DNN)を学習するための効果的なスキームとして最近登場しました。達成された有望な結果にもかかわらず、KDの振る舞いを解釈する理論的根拠はまだ大部分が研究されていないままです。この論文では、バニラKDの根底にある動作メカニズムに光を当てるために、KDExplainerと呼ばれる新しいタスク指向の注意モデルを紹介します。 KDExplainerの中心には、Hierarchical Mixture of Experts(HME)があり、マルチクラス分類がマルチタスクバイナリ分類として再定式化されます。自由形式の事前トレーニング済みDNNからKDExplainerに知識を抽出することにより、KDが異なるサブタスク間の知識の競合を暗黙的に調整し、実際にはラベルの平滑化よりもはるかに多くの機能を提供できることがわかります。このような調査結果に基づいて、仮想注意モジュール(VAM)と呼ばれるポータブルツールをさらに紹介します。このツールは、さまざまなDNNとシームレスに統合して、KDでのパフォーマンスを向上させることができます。実験結果は、ごくわずかな追加コストで、VAMを装備した学生モデルがさまざまなベンチマークで非VAMモデルを一貫して上回っていることを示しています。さらに、他のKD手法と組み合わせると、VAMは、バニラKDによってのみ動機付けられますが、結果を促進する能力を維持します。
Knowledge distillation (KD) has recently emerged as an efficacious scheme for learning compact deep neural networks (DNNs). Despite the promising results achieved, the rationale that interprets the behavior of KD has yet remained largely understudied. In this paper, we introduce a novel task-oriented attention model, termed as KDExplainer, to shed light on the working mechanism underlying the vanilla KD. At the heart of KDExplainer is a Hierarchical Mixture of Experts (HME), in which a multi-class classification is reformulated as a multi-task binary one. Through distilling knowledge from a free-form pre-trained DNN to KDExplainer, we observe that KD implicitly modulates the knowledge conflicts between different subtasks, and in reality has much more to offer than label smoothing. Based on such findings, we further introduce a portable tool, dubbed as virtual attention module (VAM), that can be seamlessly integrated with various DNNs to enhance their performance under KD. Experimental results demonstrate that with a negligible additional cost, student models equipped with VAM consistently outperform their non-VAM counterparts across different benchmarks. Furthermore, when combined with other KD methods, VAM remains competent in promoting results, even though it is only motivated by vanilla KD.
updated: Mon May 10 2021 08:15:26 GMT+0000 (UTC)
published: Mon May 10 2021 08:15:26 GMT+0000 (UTC)
