arXiv reaDer
自己特徴の正則化:教師モデルなしの自己特徴の蒸留
Self-Feature Regularization: Self-Feature Distillation Without Teacher Models
知識の蒸留は、知識を大きなモデルから小さなモデルに移すプロセスです。このプロセスでは、小さいモデルは大きいモデルの一般化能力を学習し、大きいモデルのパフォーマンスに近いパフォーマンスを維持します。知識の蒸留は、モデルの知識を移行するためのトレーニング手段を提供し、モデルの展開を容易にし、推論を高速化します。ただし、以前の蒸留方法では、事前にトレーニングされた教師モデルが必要であり、それでも計算とストレージのオーバーヘッドが発生します。この論文では、自己特徴正則化〜(SFR)と呼ばれる新しい一般的なトレーニングフレームワークを提案します。これは、深い層の特徴を使用して浅い層の特徴学習を監視し、より多くのセマンティック情報を保持します。具体的には、最初にEMD-l2損失を使用してローカル機能を照合し、多対1のアプローチを使用してチャネル次元で機能をより集中的に抽出します。次に、動的ラベル平滑化が出力層で使用され、パフォーマンスが向上します。実験はさらに、提案されたフレームワークの有効性を示しています。
Knowledge distillation is the process of transferring the knowledge from a large model to a small model. In this process, the small model learns the generalization ability of the large model and retains the performance close to that of the large model. Knowledge distillation provides a training means to migrate the knowledge of models, facilitating model deployment and speeding up inference. However, previous distillation methods require pre-trained teacher models, which still bring computational and storage overheads. In this paper, a novel general training framework called Self-Feature Regularization~(SFR) is proposed, which uses features in the deep layers to supervise feature learning in the shallow layers, retains more semantic information. Specifically, we firstly use EMD-l2 loss to match local features and a many-to-one approach to distill features more intensively in the channel dimension. Then dynamic label smoothing is used in the output layer to achieve better performance. Experiments further show the effectiveness of our proposed framework.
updated: Tue Mar 16 2021 17:10:13 GMT+0000 (UTC)
published: Fri Mar 12 2021 15:29:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト