実際の教育シナリオでは、優れた教師は常に自分 (または彼女) が得意なことを教えますが、生徒はそうではありません。これは、学生が自分の弱点を補い、全体的に良いものになるための最良の支援を提供します.そこで、「教えるべきことを教える」戦略を知識蒸留の枠組みに導入し、より効率的かつ合理的な蒸留を支援するために、望ましい拡張サンプルを検索する「TST」という名前のデータベース蒸留方法を提案します。具体的には、適切なデータ サンプルを生成する大きさと確率を学習することにより、アプリオリ バイアスを使用してニューラル ネットワーク ベースのデータ拡張モジュールを設計します。データ拡張モジュールと一般化された蒸留パラダイムを順番にトレーニングすることにより、優れた一般化能力を備えた学生モデルが学習されます。私たちの方法の有効性を検証するために、オブジェクトの認識、検出、およびセグメンテーションのタスクに関する広範な比較実験を実施しました。 CIFAR-10、ImageNet-1k、MS-COCO、および Cityscapes データセットの結果は、私たちの方法がほぼすべての教師と生徒のペアで最先端のパフォーマンスを達成することを示しています。さらに、蒸留プロセスに必要な大きさと確率を調べるために、視覚化の研究を行います。
In real teaching scenarios, an excellent teacher always teaches what he (or she) is good at but the student is not. This gives the student the best assistance in making up for his (or her) weaknesses and becoming a good one overall. Enlightened by this, we introduce the "Teaching what you Should Teach" strategy into a knowledge distillation framework, and propose a data-based distillation method named "TST" that searches for desirable augmented samples to assist in distilling more efficiently and rationally. To be specific, we design a neural network-based data augmentation module with priori bias, which assists in finding what meets the teacher's strengths but the student's weaknesses, by learning magnitudes and probabilities to generate suitable data samples. By training the data augmentation module and the generalized distillation paradigm in turn, a student model is learned with excellent generalization ability. To verify the effectiveness of our method, we conducted extensive comparative experiments on object recognition, detection, and segmentation tasks. The results on the CIFAR-10, ImageNet-1k, MS-COCO, and Cityscapes datasets demonstrate that our method achieves state-of-the-art performance on almost all teacher-student pairs. Furthermore, we conduct visualization studies to explore what magnitudes and probabilities are needed for the distillation process.