arXiv reaDer
すべての知識が同じように作られているわけではありません
Not All Knowledge Is Created Equal
相互知識蒸留 (MKD) は、別のモデルから知識を抽出してモデルを改善します。ただし、特に悪条件下では、すべての知識が確実で正しいとは限りません。たとえば、ラベル ノイズは通常、望ましくない記憶のためにモデルの信頼性を低下させます [1、2]。間違った知識は、学習を助けるのではなく誤解を招きます。この問題は、次の 2 つの側面で処理できます。(i) 知識が由来するモデルの信頼性 (つまり、知識源の信頼性) を改善すること。 (ii) 蒸留に関する信頼できる知識を選択する。文献では、モデルの信頼性を高めることが広く研究されていますが、選択的 MKD はほとんど注目されていません。したがって、選択的 MKD の研究に焦点を当て、この作業でその重要性を強調します。具体的には、一般的な MKD フレームワークである信頼できる知識の選択とそれに続く相互蒸留 (CMD) が設計されます。 CMD の主要なコンポーネントは、一般的な知識の選択の定式化であり、選択のしきい値を静的 (CMD-S) または漸進的 (CMD-P) にします。さらに、CMD は、ゼロ知識とすべての知識という 2 つの特殊なケースをカバーし、統合された MKD フレームワークにつながります。経験的に、CMD-P は CMD-S よりも優れたパフォーマンスを発揮します。その主な理由は、トレーニングが進むにつれてモデルの知識がアップグレードされ、自信が持てるようになるためです。 CMD の有効性を実証し、CMD の設計を完全に正当化するために、広範な実験が行われています。たとえば、CMD-P は、ラベル ノイズに対するロバスト性という新しい最先端の結果を取得します。
Mutual knowledge distillation (MKD) improves a model by distilling knowledge from another model. However, not all knowledge is certain and correct, especially under adverse conditions. For example, label noise usually leads to less reliable models due to the undesired memorisation [1, 2]. Wrong knowledge misleads the learning rather than helps. This problem can be handled by two aspects: (i) improving the reliability of a model where the knowledge is from (i.e., knowledge source's reliability); (ii) selecting reliable knowledge for distillation. In the literature, making a model more reliable is widely studied while selective MKD receives little attention. Therefore, we focus on studying selective MKD and highlight its importance in this work. Concretely, a generic MKD framework, Confident knowledge selection followed by Mutual Distillation (CMD), is designed. The key component of CMD is a generic knowledge selection formulation, making the selection threshold either static (CMD-S) or progressive (CMD-P). Additionally, CMD covers two special cases: zero knowledge and all knowledge, leading to a unified MKD framework. We empirically find CMD-P performs better than CMD-S. The main reason is that a model's knowledge upgrades and becomes confident as the training progresses. Extensive experiments are present to demonstrate the effectiveness of CMD and thoroughly justify the design of CMD. For example, CMD-P obtains new state-of-the-art results in robustness against label noise.
updated: Wed Jun 02 2021 22:06:55 GMT+0000 (UTC)
published: Wed Jun 02 2021 22:06:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト