arXiv reaDer
セマンティックキャリブレーションによるクロスレイヤー蒸留
Cross-Layer Distillation with Semantic Calibration
知識の蒸留は、教師モデルからの出力を活用することにより、学生モデルの一般化能力を強化する手法です。最近、機能マップベースのバリアントは、さらに改善するために、中間層で手動で割り当てられた教師と生徒のペア間の知識の伝達を調査します。ただし、レイヤーのセマンティクスはニューラルネットワークによって異なる場合があり、手動のレイヤーの関連付けにおけるセマンティックの不一致は、負の正則化によるパフォーマンスの低下につながります。この問題に対処するために、クロスレイヤー知識蒸留のセマンティックキャリブレーション(SemCKD)を提案します。これは、注意メカニズムを使用して、各生徒レイヤーに教師モデルの適切なターゲットレイヤーを自動的に割り当てます。学習された注意の分布により、各学生レイヤーは、適切なクロスレイヤー監視のために、特定の中間レイヤーではなく、複数の教師レイヤーに含まれる知識を抽出します。さらに、関連の重みの理論的分析を提供し、広範な実験を行って、アプローチの有効性を実証します。コードはhttps://github.com/DefangChen/SemCKDで入手できます。
Knowledge distillation is a technique to enhance the generalization ability of a student model by exploiting outputs from a teacher model. Recently, feature-map based variants explore knowledge transfer between manually assigned teacher-student pairs in intermediate layers for further improvement. However, layer semantics may vary in different neural networks and semantic mismatch in manual layer associations will lead to performance degeneration due to negative regularization. To address this issue, we propose Semantic Calibration for cross-layer Knowledge Distillation (SemCKD), which automatically assigns proper target layers of the teacher model for each student layer with an attention mechanism. With a learned attention distribution, each student layer distills knowledge contained in multiple teacher layers rather than a specific intermediate layer for appropriate cross-layer supervision. We further provide theoretical analysis of the association weights and conduct extensive experiments to demonstrate the effectiveness of our approach. Code is avaliable at https://github.com/DefangChen/SemCKD.
updated: Sun Aug 29 2021 07:40:05 GMT+0000 (UTC)
published: Sun Dec 06 2020 11:16:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト