arXiv reaDer
Projector Ensemble による特徴抽出の改善
Improved Feature Distillation via Projector Ensemble
知識の蒸留では、以前の特徴の蒸留方法は、主に損失関数の設計と蒸留層の選択に焦点を当てていましたが、学生と教師の間の特徴プロジェクターの効果は未調査のままです。この論文では、最初に経験的証拠を使用してプロジェクターのもっともらしいメカニズムについて説明し、次に、さらなるパフォーマンス向上のためにプロジェクターアンサンブルに基づく新しい機能抽出方法を提案します。生徒と教師の特徴の次元が同じであっても、生徒のネットワークはプロジェクターの恩恵を受けることがわかりました。プロジェクターを使用せずに生徒のバックボーンをトレーニングすることは、マルチタスクの学習プロセスと見なすことができます。つまり、分類のための識別特徴抽出と、蒸留のための生徒と教師の間の特徴マッチングを同時に達成します。プロジェクターがないと、アーキテクチャと重みの初期化が異なるにもかかわらず、生徒のネットワークが教師の特徴分布にオーバーフィットする傾向があるという仮説を立て、経験的に検証します。これは、最終的に分類で使用される学生の深い特徴の品質の低下につながります。一方、プロジェクターを追加すると、2 つの学習タスクが解消され、生徒のネットワークが主要な特徴抽出タスクにより集中できるようになりますが、プロジェクターを介して教師の特徴をガイダンスとして利用することもできます。特徴の抽出におけるプロジェクターのプラスの効果に動機付けられて、生徒の特徴の質をさらに向上させるためのプロジェクターのアンサンブルを提案します。一連の教師と生徒のペアを使用したさまざまなデータセットでの実験結果は、提案された方法の有効性を示しています。
In knowledge distillation, previous feature distillation methods mainly focus on the design of loss functions and the selection of the distilled layers, while the effect of the feature projector between the student and the teacher remains under-explored. In this paper, we first discuss a plausible mechanism of the projector with empirical evidence and then propose a new feature distillation method based on a projector ensemble for further performance improvement. We observe that the student network benefits from a projector even if the feature dimensions of the student and the teacher are the same. Training a student backbone without a projector can be considered as a multi-task learning process, namely achieving discriminative feature extraction for classification and feature matching between the student and the teacher for distillation at the same time. We hypothesize and empirically verify that without a projector, the student network tends to overfit the teacher's feature distributions despite having different architecture and weights initialization. This leads to degradation on the quality of the student's deep features that are eventually used in classification. Adding a projector, on the other hand, disentangles the two learning tasks and helps the student network to focus better on the main feature extraction task while still being able to utilize teacher features as a guidance through the projector. Motivated by the positive effect of the projector in feature distillation, we propose an ensemble of projectors to further improve the quality of student features. Experimental results on different datasets with a series of teacher-student pairs illustrate the effectiveness of the proposed method.
updated: Wed Mar 01 2023 02:06:06 GMT+0000 (UTC)
published: Thu Oct 27 2022 09:08:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト