知識蒸留 (KD) は、単一ラベルの画像分類で広く研究されています。ただし、マルチラベル分類の有効性は比較的未調査のままです。この研究では、最初に、マルチラベル分類に対する、ロジットベースおよび特徴ベースの方法を含む従来の KD 手法の有効性を調査します。私たちの調査結果は、教師がカテゴリ間の類似性情報または学生モデルのトレーニングに対する正則化効果を提供できないため、ロジットベースの方法はマルチラベル分類には適していないことを示しています。さらに、機能ベースの方法では、複数のラベルのコンパクトな情報を同時に伝えるのに苦労していることがわかります。これらの制限を考慮して、適切な暗い知識にはクラスごとの情報が組み込まれ、最終的な分類結果と高度に相関する必要があることを提案します。これらの問題に対処するために、効果的で実装が簡単なクラス アクティベーション マップ (CAM) に基づく新しい蒸留法を紹介します。幅広い設定で、CAM ベースの蒸留は一貫して他の方法よりも優れています。
Knowledge distillation (KD) has been extensively studied in single-label image classification. However, its efficacy for multi-label classification remains relatively unexplored. In this study, we firstly investigate the effectiveness of classical KD techniques, including logit-based and feature-based methods, for multi-label classification. Our findings indicate that the logit-based method is not well-suited for multi-label classification, as the teacher fails to provide inter-category similarity information or regularization effect on student model's training. Moreover, we observe that feature-based methods struggle to convey compact information of multiple labels simultaneously. Given these limitations, we propose that a suitable dark knowledge should incorporate class-wise information and be highly correlated with the final classification results. To address these issues, we introduce a novel distillation method based on Class Activation Maps (CAMs), which is both effective and straightforward to implement. Across a wide range of settings, CAMs-based distillation consistently outperforms other methods.