arXiv reaDer
ディープ顔認識のためのグループ化された知識の抽出
Grouped Knowledge Distillation for Deep Face Recognition
特徴ベースの蒸留法と比較して、ロジット蒸留は、教師と生徒のネットワーク間の一貫した特徴次元の要件を自由化できますが、顔認識のパフォーマンスは劣ると見なされます。主な課題の 1 つは、モデル容量が少ないため、軽量の学生ネットワークがターゲット ロジットを適合させるのが難しいことです。これは、顔認識のアイデンティティの数が非常に多いことに起因します。したがって、ターゲットロジットを精査して、顔のアイデンティティに関連する主要な知識を抽出し、その他を破棄して、学生ネットワークにとって蒸留をより達成しやすくします。具体的には、予測にゼロに近い値を持つテール グループがあり、蒸留に関するマイナーな知識が含まれています。その影響を明確に示すために、最初にロジットを 2 つのグループ、つまりプライマリ グループとセカンダリ グループに分割します。次に、グループ化されたロジットの知識蒸留 (KD) 損失を 3 つの部分、つまり、プライマリ KD、セカンダリ KD、およびバイナリ KD に再編成します。 Primary-KD は教師から一次知識を抽出することを指し、Secondary-KD はマイナーな知識を洗練することを目的としていますが、抽出の難しさを高めます。Binary-KD は教師と生徒の間の知識分布の一貫性を保証します。 (1) KD には Primary-KD と Binary-KD が不可欠であり、(2) ボトルネックで KD を制限している原因は、Secondary-KD であることが実験的にわかりました。したがって、プライマリ KD とバイナリ KD を保持するが、最終的な KD 損失計算でセカンダリ KD を省略するグループ化された知識の蒸留 (GKD) を提案します。一般的な顔認識ベンチマークに関する広範な実験結果は、提案された GKD が最先端の方法よりも優れていることを示しています。
Compared with the feature-based distillation methods, logits distillation can liberalize the requirements of consistent feature dimension between teacher and student networks, while the performance is deemed inferior in face recognition. One major challenge is that the light-weight student network has difficulty fitting the target logits due to its low model capacity, which is attributed to the significant number of identities in face recognition. Therefore, we seek to probe the target logits to extract the primary knowledge related to face identity, and discard the others, to make the distillation more achievable for the student network. Specifically, there is a tail group with near-zero values in the prediction, containing minor knowledge for distillation. To provide a clear perspective of its impact, we first partition the logits into two groups, i.e., Primary Group and Secondary Group, according to the cumulative probability of the softened prediction. Then, we reorganize the Knowledge Distillation (KD) loss of grouped logits into three parts, i.e., Primary-KD, Secondary-KD, and Binary-KD. Primary-KD refers to distilling the primary knowledge from the teacher, Secondary-KD aims to refine minor knowledge but increases the difficulty of distillation, and Binary-KD ensures the consistency of knowledge distribution between teacher and student. We experimentally found that (1) Primary-KD and Binary-KD are indispensable for KD, and (2) Secondary-KD is the culprit restricting KD at the bottleneck. Therefore, we propose a Grouped Knowledge Distillation (GKD) that retains the Primary-KD and Binary-KD but omits Secondary-KD in the ultimate KD loss calculation. Extensive experimental results on popular face recognition benchmarks demonstrate the superiority of proposed GKD over state-of-the-art methods.
updated: Mon Apr 10 2023 09:04:38 GMT+0000 (UTC)
published: Mon Apr 10 2023 09:04:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト