arXiv reaDer
Easy-to-Hard学習戦略による動的なデータフリー知識蒸留
Dynamic Data-Free Knowledge Distillation by Easy-to-Hard Learning Strategy
データフリー知識蒸留 (DFKD) は、トレーニング データを使用せずに、事前トレーニング済みの大規模な教師ネットワークから軽量の学生ネットワークをトレーニングすることを目的としています。既存のアプローチは、有益なサンプルを生成し、事前データ、境界サンプル、またはメモリ サンプルをターゲットにして学生モデルを更新するというパラダイムに従っています。ただし、さまざまなトレーニング段階で生成戦略を動的に調整しないため、DFKD で効率的かつ安定したトレーニングを実現することが困難になります。この論文では、動的な観点からモデルを学生に教える方法を探り、新しいアプローチ、つまり「CuDFKD」、つまり「カリキュラムによるデータフリー知識蒸留」を提案します。人間の学習と同様に、簡単なサンプルから難しいサンプルまで動的に学習します。さらに、メジャーライゼーション最小化 (MM) アルゴリズムの理論的分析を提供し、CuDFKD の収束について説明します。ベンチマーク データセットで実施された実験では、単純なコース設計戦略により、CuDFKD が最先端の DFKD メソッドとさまざまなベンチマークで最高のパフォーマンスを達成し、データを使用して最初からトレーニングするよりも優れていることが示されています。トレーニングは高速で、CIFAR10 で ResNet34 を ResNet18 に抽出すると、15 エポック以内に 90% の最高精度に達します。その上、CuDFKD の適用性も分析され、議論されます。
Data-free knowledge distillation (DFKD) aims at training lightweight student networks from large pretrained teacher networks without training data. Existing approaches follow the paradigm of generating informative samples and updating student models by targeting data priors, boundary samples, or memory samples. However, they don't dynamically adjust the generation strategy at different training stages, which in turn makes it DFKD difficult to achieve efficient and stable training. In this paper, we explore how to teach students the model from a dynamic perspective and propose a new approach, namely "CuDFKD", i.e., "Data-Free Knowledge Distillation with Curriculum". It dynamically learns from easy samples to difficult samples, which is similar to the human learning. In addition, we provide a theoretical analysis of the majorization minimization (MM) algorithm and explain the convergence of CuDFKD. Experiments conducted on benchmark datasets show that with a simple course design strategy, CuDFKD achieves the best performance over state-of-the-art DFKD methods and different benchmarks, even better than training from scratch with data. The training is fast, reaching the highest accuracy of 90% within 15 epochs when distilling ResNet34 to ResNet18 in CIFAR10. Besides, the applicability of CuDFKD is also analyzed and discussed.
updated: Mon Jan 16 2023 07:47:39 GMT+0000 (UTC)
published: Mon Aug 29 2022 14:51:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト