知識の蒸留 (KD) は、基本的に、ネットワーク応答などの教師モデルの動作を生徒モデルに転送するプロセスです。ネットワーク応答は、人間の領域から収集されたデータを転送セットとして使用するマシンの領域を策定するための追加の監視として機能します。従来の KD メソッドは、人間のドメインとマシンのドメインの両方で収集されたデータが独立しており、同一分布 (IID) であるという根本的な仮定を保持しています。この単純な仮定は非現実的であり、実際に 2 つのドメイン間に転送ギャップがあることを指摘します。ギャップは学生モデルに機械ドメインからの外部知識を提供しますが、不均衡な教師の知識により、非 IID 転送セットのサンプルごとに教師から学生に転送する量を誤って見積もることになります。この課題に取り組むために、マシンドメインに属するトレーニングサンプルの傾向スコアを推定し、その逆数を割り当てて過小評価されたサンプルを補う逆確率加重蒸留 (IPWD) を提案します。 CIFAR-100 と ImageNet での実験では、2 段階蒸留と 1 段階自己蒸留の両方に対する IPWD の有効性が実証されています。
Knowledge distillation (KD) is essentially a process of transferring a teacher model's behavior, e.g., network response, to a student model. The network response serves as additional supervision to formulate the machine domain, which uses the data collected from the human domain as a transfer set. Traditional KD methods hold an underlying assumption that the data collected in both human domain and machine domain are both independent and identically distributed (IID). We point out that this naive assumption is unrealistic and there is indeed a transfer gap between the two domains. Although the gap offers the student model external knowledge from the machine domain, the imbalanced teacher knowledge would make us incorrectly estimate how much to transfer from teacher to student per sample on the non-IID transfer set. To tackle this challenge, we propose Inverse Probability Weighting Distillation (IPWD) that estimates the propensity score of a training sample belonging to the machine domain, and assigns its inverse amount to compensate for under-represented samples. Experiments on CIFAR-100 and ImageNet demonstrate the effectiveness of IPWD for both two-stage distillation and one-stage self-distillation.