arXiv reaDer
劇的な顔の閉塞の影響を減らすための教師と生徒のトレーニングとトリプレットの喪失
Teacher-Student Training and Triplet Loss to Reduce the Effect of Drastic Face Occlusion
強い閉塞下の顔の分析を必要とする2つの現実的なシナリオで一連の認識タスクを研究します。一方では、バーチャルリアリティ(VR)ヘッドセットを装着している人々の表情を認識することを目指しています。一方、サージカルマスクを着用している人の年齢を推定し、性別を特定することを目指しています。これらすべてのタスクの共通点は、顔の半分が塞がれていることです。この困難な設定では、完全に見える顔でトレーニングされた畳み込みニューラルネットワーク(CNN)が非常に低いパフォーマンスレベルを示すことを示します。遮蔽された面で深層学習モデルを微調整することは非常に便利ですが、完全に見える面でトレーニングされたモデルから知識を抽出することで、パフォーマンスがさらに向上することを示します。この目的のために、2つの知識蒸留方法を研究します。1つは教師と生徒のトレーニングに基づいており、もう1つはトリプレットロスに基づいています。私たちの主な貢献は、モデルとタスク全体で一般化するトリプレット損失に基づく知識蒸留のための新しいアプローチにあります。さらに、従来の教師と生徒のトレーニング、またはトリプレット損失に基づく新しい教師と生徒のトレーニングを通じて学習した蒸留モデルを組み合わせることを検討します。ほとんどの場合、個別の知識蒸留法と組み合わせた知識蒸留法の両方が統計的に有意なパフォーマンスの向上をもたらすことを示す経験的証拠を提供します。さまざまなタスク(顔の表情の認識、性別の認識、年齢の推定)で3つの異なるニューラルモデル(VGG-f、VGG-face、ResNet-50)を使用して実験を行い、モデルやタスクに関係なく一貫した改善を示しています。
We study a series of recognition tasks in two realistic scenarios requiring the analysis of faces under strong occlusion. On the one hand, we aim to recognize facial expressions of people wearing Virtual Reality (VR) headsets. On the other hand, we aim to estimate the age and identify the gender of people wearing surgical masks. For all these tasks, the common ground is that half of the face is occluded. In this challenging setting, we show that convolutional neural networks (CNNs) trained on fully-visible faces exhibit very low performance levels. While fine-tuning the deep learning models on occluded faces is extremely useful, we show that additional performance gains can be obtained by distilling knowledge from models trained on fully-visible faces. To this end, we study two knowledge distillation methods, one based on teacher-student training and one based on triplet loss. Our main contribution consists in a novel approach for knowledge distillation based on triplet loss, which generalizes across models and tasks. Furthermore, we consider combining distilled models learned through conventional teacher-student training or through our novel teacher-student training based on triplet loss. We provide empirical evidence showing that, in most cases, both individual and combined knowledge distillation methods bring statistically significant performance improvements. We conduct experiments with three different neural models (VGG-f, VGG-face, ResNet-50) on various tasks (facial expression recognition, gender recognition, age estimation), showing consistent improvements regardless of the model or task.
updated: Sat Nov 20 2021 11:13:46 GMT+0000 (UTC)
published: Sat Nov 20 2021 11:13:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト