この論文は、正面顔画像からの表情認識(FER)の問題のために、非常に小さくて高速な畳み込みニューラルネットワーク(CNN)を作成することを目的としています。この目的のために、一般的な知識の蒸留(KD)メソッドを採用し、その使用に関して2つの大きな欠点を特定しました:1)温度ハイパーパラメーターの調整にはきめの細かいグリッド検索が必要であり、2)最適なサイズ精度バランスを見つけるには、最終的なネットワークサイズ(または圧縮率)を検索する必要があります。一方、KDはFER問題のモデル圧縮に有用であることが証明されており、モデルのサイズが小さくなるとその効果がますます顕著になることがわかりました。さらに、最大プーリングレイヤーを使用して達成された変換不変性は、式が目と口の周りの小さなピクセル単位の変化に敏感であるため、FER問題には役に立たないと仮定しました。ただし、max-poolingを使用すると、汎化の興味深い改善が見られました。 2つの広く使用されているFERデータセット、CK +とOulu-CASIAで実験を実施しました。知識抽出を使用して取得した最小モデル(MicroExpNet)は、サイズが1MB未満で、Intel i7 CPUで毎秒1851フレームで動作します。 MicroExpNetは、最先端技術ほど正確ではありませんが、FER問題のマイクロアーキテクチャを設計するための重要な洞察を提供します。
This paper is aimed at creating extremely small and fast convolutional neural networks (CNN) for the problem of facial expression recognition (FER) from frontal face images. To this end, we employed the popular knowledge distillation (KD) method and identified two major shortcomings with its use: 1) a fine-grained grid search is needed for tuning the temperature hyperparameter and 2) to find the optimal size-accuracy balance, one needs to search for the final network size (or the compression rate). On the other hand, KD is proved to be useful for model compression for the FER problem, and we discovered that its effects gets more and more significant with the decreasing model size. In addition, we hypothesized that translation invariance achieved using max-pooling layers would not be useful for the FER problem as the expressions are sensitive to small, pixel-wise changes around the eye and the mouth. However, we have found an intriguing improvement on generalization when max-pooling is used. We conducted experiments on two widely-used FER datasets, CK+ and Oulu-CASIA. Our smallest model (MicroExpNet), obtained using knowledge distillation, is less than 1MB in size and works at 1851 frames per second on an Intel i7 CPU. Despite being less accurate than the state-of-the-art, MicroExpNet still provides significant insights for designing a microarchitecture for the FER problem.