arXiv reaDer
知識蒸留の有効性について
On the Efficacy of Knowledge Distillation
  この論文では、知識の蒸留の有効性と、生徒と教師のアーキテクチャへの依存の徹底的な評価を提示します。より正確な教師はしばしば良い教師を作れないという観察から始めて、我々は知識の蒸留のパフォーマンスに影響を与える要因を解体しようとします。私たちは、より大きなモデルがしばしばより良い教師になるわけではないことを決定的に見つけます。これは能力の不一致の結果であり、小さな生徒は大きな教師を真似できないことを示しています。これを回避する典型的な方法(一連の知識蒸留ステップの実行など)は効果的ではないことがわかります。最後に、教師のトレーニングを早期に停止することにより、この効果を軽減できることを示します。結果は、データセットとモデル全体で一般化されます。
In this paper, we present a thorough evaluation of the efficacy of knowledge distillation and its dependence on student and teacher architectures. Starting with the observation that more accurate teachers often don't make good teachers, we attempt to tease apart the factors that affect knowledge distillation performance. We find crucially that larger models do not often make better teachers. We show that this is a consequence of mismatched capacity, and that small students are unable to mimic large teachers. We find typical ways of circumventing this (such as performing a sequence of knowledge distillation steps) to be ineffective. Finally, we show that this effect can be mitigated by stopping the teacher's training early. Our results generalize across datasets and models.
updated: Thu Oct 03 2019 08:14:13 GMT+0000 (UTC)
published: Thu Oct 03 2019 08:14:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト