arXiv reaDer
バッチ知識アンサンブルによる自己蒸留はImageNet分類を改善します
Self-distillation with Batch Knowledge Ensembling Improves ImageNet Classification
知識蒸留に関する最近の研究では、複数の教師または生徒からの「暗い知識」をアンサンブルすることで、トレーニング用のより優れたソフトターゲットを作成できることがわかりましたが、計算やパラメータが大幅に増えます。この作業では、同じミニバッチ内の他のサンプルの知識を伝播およびアンサンブルすることにより、アンカー画像の洗練されたソフトターゲットを生成するBAtch Knowledge Ensembling(BAKE)を紹介します。具体的には、関心のあるサンプルごとに、知識の伝播は、現在のネットワークでオンザフライで推定されるサンプル間の親和性に従って重み付けされます。次に、伝播された知識をまとめて、蒸留のためのより優れたソフトターゲットを形成することができます。このようにして、BAKEフレームワークは、単一のネットワークのみで複数のサンプルにわたるオンライン知識アンサンブルを実現します。既存の知識アンサンブル手法と比較して、最小限の計算とメモリのオーバーヘッドが必要です。広範な実験により、軽量でありながら効果的なBAKEは、複数のデータセットでさまざまなアーキテクチャの分類パフォーマンスを一貫して向上させることが示されています。たとえば、ImageNetでSwin-Tが大幅に+ 0.7%向上し、計算オーバーヘッドは+ 1.5%で、追加パラメータはゼロです。 BAKEは、バニラベースラインを改善するだけでなく、すべてのベンチマークで単一ネットワークの最先端技術を上回ります。
The recent studies of knowledge distillation have discovered that ensembling the "dark knowledge" from multiple teachers or students contributes to creating better soft targets for training, but at the cost of significantly more computations and/or parameters. In this work, we present BAtch Knowledge Ensembling (BAKE) to produce refined soft targets for anchor images by propagating and ensembling the knowledge of the other samples in the same mini-batch. Specifically, for each sample of interest, the propagation of knowledge is weighted in accordance with the inter-sample affinities, which are estimated on-the-fly with the current network. The propagated knowledge can then be ensembled to form a better soft target for distillation. In this way, our BAKE framework achieves online knowledge ensembling across multiple samples with only a single network. It requires minimal computational and memory overhead compared to existing knowledge ensembling methods. Extensive experiments demonstrate that the lightweight yet effective BAKE consistently boosts the classification performance of various architectures on multiple datasets, e.g., a significant +0.7% gain of Swin-T on ImageNet with only +1.5% computational overhead and zero additional parameters. BAKE does not only improve the vanilla baselines, but also surpasses the single-network state-of-the-arts on all the benchmarks.
updated: Sat Nov 20 2021 09:22:24 GMT+0000 (UTC)
published: Tue Apr 27 2021 16:11:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト