arXiv reaDer
深さレベルの動的ニューラルネットワークに埋め込まれた知識の蒸留
Embedded Knowledge Distillation in Depth-Level Dynamic Neural Network
実際のアプリケーションでは、さまざまな計算リソースデバイスに、高精度のさまざまな深さのネットワーク(ResNet-18 / 34/50など)が必要です。通常、既存の方法では、複数のネットワークを設計して個別にトレーニングするか、各サブネットの精度を証明するのが難しい深度レベル/幅レベルの動的ニューラルネットワークを構築します。この記事では、同様のアーキテクチャの異なる深度のサブネットを統合した、エレガントな深度レベルの動的ニューラルネットワーク(DDNN)を提案します。サブネットの一般化を改善するために、DDNNのEmbedded-Knowledge-Distillation(EKD)トレーニングメカニズムを設計して、教師(フルネット)から複数の学生(サブネット)への知識の伝達を実装します。具体的には、フルネットとサブネット間の事後クラス確率の一貫性を制約するためにカルバックライブラー(KL)発散が導入され、異なる深さの同じ解像度の特徴での自己注意蒸留が、より豊富な特徴表現を駆動するために対処されます。サブネット。したがって、追加の計算コストをかけずに、各トレーニング反復でのオンライン知識蒸留を介して、DDNNで複数の高精度サブネットを同時に取得できます。 CIFAR-10 / 100およびImageNetデータセットに関する広範な実験により、EKDトレーニングを使用したDDNNのサブネットは、フルネットの元のパフォーマンスを維持しながら、ネットワークを個別にトレーニングするよりも優れたパフォーマンスを実現することが示されています。
In real applications, different computation-resource devices need different-depth networks (e.g., ResNet-18/34/50) with high-accuracy. Usually, existing methods either design multiple networks and train them independently, or construct depth-level/width-level dynamic neural networks which is hard to prove the accuracy of each sub-net. In this article, we propose an elegant Depth-Level Dynamic Neural Network (DDNN) integrated different-depth sub-nets of similar architectures. To improve the generalization of sub-nets, we design the Embedded-Knowledge-Distillation (EKD) training mechanism for the DDNN to implement knowledge transfer from the teacher (full-net) to multiple students (sub-nets). Specifically, the Kullback-Leibler (KL) divergence is introduced to constrain the posterior class probability consistency between full-net and sub-nets, and self-attention distillation on the same resolution feature of different depth is addressed to drive more abundant feature representations of sub-nets. Thus, we can obtain multiple high-accuracy sub-nets simultaneously in a DDNN via the online knowledge distillation in each training iteration without extra computation cost. Extensive experiments on CIFAR-10/100, and ImageNet datasets demonstrate that sub-nets in DDNN with EKD training achieve better performance than individually training networks while preserving the original performance of full-nets.
updated: Tue Apr 20 2021 09:49:16 GMT+0000 (UTC)
published: Mon Mar 01 2021 06:35:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト