arXiv reaDer
クロスアーキテクチャの知識蒸留
Cross-Architecture Knowledge Distillation
Transformer は、そのグローバルな関係を学習する能力と優れたパフォーマンスにより、多くの注目を集めています。より高いパフォーマンスを達成するために、Transformer から畳み込みニューラル ネットワーク (CNN) への補完的な知識を抽出することは当然のことです。ただし、ほとんどの既存の知識蒸留方法は、CNN から CNN への知識の蒸留など、相同アーキテクチャの蒸留のみを考慮しています。 Transformer から CNN などのクロスアーキテクチャ シナリオに適用する場合は、適切でない可能性があります。この問題に対処するために、新しいクロスアーキテクチャ知識蒸留法が提案されています。具体的には、教師の出力/中間機能を直接模倣する代わりに、部分的交差注意プロジェクターとグループごとの線形プロジェクターを導入して、2 つの投影された特徴空間で生徒の特徴を教師の特徴に合わせます。また、フレームワークのロバスト性と安定性を向上させるために、マルチビュー ロバスト トレーニング スキームがさらに提示されます。広範な実験により、提案された方法は、小規模および大規模のデータセットの両方で 14 の最先端技術よりも優れていることが示されています。
Transformer attracts much attention because of its ability to learn global relations and superior performance. In order to achieve higher performance, it is natural to distill complementary knowledge from Transformer to convolutional neural network (CNN). However, most existing knowledge distillation methods only consider homologous-architecture distillation, such as distilling knowledge from CNN to CNN. They may not be suitable when applying to cross-architecture scenarios, such as from Transformer to CNN. To deal with this problem, a novel cross-architecture knowledge distillation method is proposed. Specifically, instead of directly mimicking output/intermediate features of the teacher, partially cross attention projector and group-wise linear projector are introduced to align the student features with the teacher's in two projected feature spaces. And a multi-view robust training scheme is further presented to improve the robustness and stability of the framework. Extensive experiments show that the proposed method outperforms 14 state-of-the-arts on both small-scale and large-scale datasets.
updated: Tue Nov 15 2022 02:54:11 GMT+0000 (UTC)
published: Tue Jul 12 2022 02:50:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト